Epidemiología
molecular, filogenia y Hiv
La información hereditaria se almacena y transmite a través de los
ácidos desoxiribonucleico (ADN) y/o ribonucleico (ARN). Ambos son largas moléculas
formadas por el encadenamiento sin ramificaciones de cuatro moléculas menores llamadas
nucleótidos formados, a su vez, por la unión de una molécula de azúcar (deoxiribosa en
el ADN y ribosa en el ARN), una molécula de fosfato y una de cuatro bases nitrogenadas
(en el ADN adenina, guanina, timina o citosina que da lugar a los nucleótidos adenosina,
citosina, guanosina y timidina. En el ARN la timina está reemplazada por el uracilo). El
mensaje genético está contenido en la orden (secuencia) con que están alineados los
cuatro distintos nucleótidos a lo largo del ácido nucleico, de modo análogo, el mensaje
de este escrito está contenido en la secuencia con que aparecen en él las letras,
espacios y signos de puntuación cuando se leen de izquierda a derecha y de arriba abajo.
Cada una de las bases nitrogenadas de una molécula de ácido nucleico puede unirse de
forma muy específica con una de las bases de otra molécula y forma lo que se conoce como
pares de bases (para más detalles ver "Algunos tecnicismos", recuadro de:
"Consecuencias étnicas del estudio del genoma humano", en Ciencia Hoy, 32:
44-46, 1996).
En los últimos años se han realizado avances notables en las
técnicas de laboratorio para estudiar el material genético de los organismos. Dichas
técnicas derivan de una rama relativamente nueva de la biología: la biología molecular.
Es importante señalar dos de estas técnicas. Una es la llamada reacción en cadena de la
polimerasa (véase el articulo del mismo nombre en Ciencia Hoy 23: 52-59, 1993) que
permite producir de manera rápida y simple grandes cantidades de ácidos nucleicos a
partir de ínfimas porciones de estos. Esto permite copiar hasta llegar a obtener
cantidades accesibles a las técnicas de laboratorio los ácidos nucleicos presentes en
una pequeña muestra inicial (hecho que sucede frecuentemente en medicina forense). Por
otro lado, mediante la llamada secuenciación del ADN o ARN realizada de manera química o
enzimática, es factible conocer de un modo simple y preciso en qué orden (secuencia)
están alineados los cuatro nucleótidos constituyentes de un ácido nucleico de una
porción determinada de la molécula de este ácido.
Actualmente, es común el uso de estas técnicas en estudios
epidemiológicos de enfermedades infecciosas producidas por virus en humanos, con el
objeto de establecer patrones de transmisión entre personas, dentro de comunidades o
incluso entre países.
Estos estudios sólo son posibles si existe variabilidad genética en
el virus. Cuanto mayor sea esta, mayor será el poder del método para distinguir
distintas cepas o variedades del virus. Para un virus con substancial variación
genética, la identificación de cepas con un alto grado de parecido genético, implica
una alta probabilidad de conexión epidemiológica entre las personas portadoras de esas
cepas. Pero un estudio de patrones de transmisión exige algo más que la comparación de
a pares de cepas, y es allí donde entra a jugar un papel importante el análisis
filogenético. Con la información de las secuencias de nucleótidos contenidos en los
virus de las cepas de una ciudad o región es posible construir, mediante el cladismo, un
árbol genealógico de las cepas del virus, que exprese las relaciones históricas entre
todas ellas. Los pasos para realizar este análisis cladístico son los siguientes: 1) se
construye una matriz de datos donde estén expresadas las secuencias de nucleótídos del
ADN (o del ARN) de cada cepa, y que incluya una cepa epidemiológicamente primitiva (esto
es, obtenida en los comienzos de la aparición de la enfermedad) que actúe como grupo
hermano para establecer qué caracteres son primitivos y fueron apareciendo en el curso de
la evolución del virus (Fig. IA); 2) se aplica a la matriz el análisis fílogenético y
se construye un árbol o cIadograma que exprese la relación entre las cepas (Fig. IB).
El virus de la inmunodeficiencia humana adquirida (HIV) causante del
SIDA, tiene un alta frecuencia de mutaciones (cambios en la secuencia de sus
nucleótidos), tanto es así que los HIV de diferentes personas siempre presentan
diferencias genéticas. Incluso aparecen diferencias genéticas en distintas etapas del
ciclo de vida del virus dentro de una misma persona infectada. Esta substancial variación
genética hace del HIV un material ideal para estudios de epidemiología molecular. El
punto crítico de esos estudios es la selección del sector del genoma (total del material
hereditario) del HIV que se va a secuenciar.
Dado que el genoma del virus del SIDA tiene aproximadamente unos 9500
pares de bases, es importante identificar qué región de él puede ser apropiada para
secuenciar, ya que seria muy engorroso determinar la secuencia de todo el genoma. En
ciertas partes del genoma del HIV se constata suficiente variación como para poder
distinguir las posibles fuentes de infección, pero también es muy importante evitar
aquellas regiones del genoma que estén más sujetas a procesos evolutivos de selección y
convergencia, ya que podrían confundir la identificación de la verdadera filogenia del
virus. Algunos investigadores han enfocado su atención a un pequeño sector del genoma
(de unos 300 pares de bases) de la región del gen llamado env, conocida como región V3,
que contiene información para sintetizar una glicoproteína (proteína a la cual se
asocian moléculas de azúcares) de la cubierta externa del virus. Otros estudios sugieren
que el gen llamado pol y la región p17 del gen gag son mejores para este tipo de
estudios, dado que no muestran tanta convergencia evolutiva como la región V3.
El genoma del HIV puede ser estudiado a través del ARN de la
partícula viral entera (virión) o a través del ADN integrado en el genoma (provirus)
del organismo infectado. Esto es posible debido a que una vez que el virión entra en la
célula del mamífero, el ARN en un proceso catalizado por una enzima llamada
transcriptasa reversa (porque copia la secuencia del ARN al catalizar la síntesis de ADN,
esta dirección es inversa a la habitual que va del ADN al ARN) se convierte en ADN que se
integra en el genoma de las células que infectó. En los estudios citados en este
artículo se analizó al provirus del HIV, es decir, el ADN viral integrado en el genoma
de las personas infectadas. (Para más detalles sobre el HIV, véase "El virus de la
inmunodeficiencia humana" en Ciencia Hoy 21: 40-43, 1992).
Fig. 1.
Aplicación del análisis cladístico a datos moleculares epidemiológicos. A, matriz de
datos donde se comparan las secuencias de nucleótidos de una región del ADN (compuesta
por cuatro sitios: 1, 2, 3 y 4) de cinco cepas (a, b, c, d y e) y de una cepa
epidemiológicamente primitiva que actúa como grupo hermano. A = adenosina, C = citosina,
G = guanosina, T = timidina, GH = grupo hermano.
B, cladograma obtenido a partir da la matriz de datos donde se expresa la relación entre
las cepas a, b, c, d y e; de acuerdo con el cladograma a y b forman un grupo estrechamente
relacionado, y c y d forman otro grupo; las flechas representan los cambios de los
nucleótidos de estado primitivo a estado evolucionado y están colocadas en la
ramificación del cladograma donde ea produce el cambio.