Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 2)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

A pesar de que en el proceso de evolución molecular la
mayoría de los genes codificantes para proteínas se
originaron a partir de la combinación de regiones
codificantes para dominios estructurales de las proteínas
ancestros, es posible distinguir los taxa a partir de las
diferencias estadísticamente detectables en el número
estimado de codones que codifican para cada
aminoácido.

Objetivo del trabajo

Este trabajo se propone como objetivo:

Detectar diferencias estadísticamente
significativas
en el número estimado de codones que
codifican para cada aminoácido que estén en
correspondencia con las clasificaciones taxonómicas
existentes.

Tareas de investigación

Para el cumplimiento del objetivo y responder a las preguntas
de investigación, demostrando la hipótesis anterior,
fue necesario:

  • Construir dos bases de datos con 9 grupos de organismos
    (archaea, bacterias, invertebrados, insectos, plantas,
    vertebrados que no son mamíferos, mamíferos que no
    son primates, primates y homo sapiens), ellas se componen una
    de cadenas de aminoácidos y otra de la frecuencia del uso
    de codones, ambas extraídas de Internet, la primera de
    Direct public access to the National Library of Medicine's
    Medline Biomedical literature search engine through the
    NCBI.  www.ncbi.nlm.nih.gov/entrez/  (PubMed)
    y
    la segunda de Codon Usage Database.
  • Calcular la frecuencia de aparición de cada
    aminoácido en la cadena representativa de los
    organismos.
  • Determinar el número estimado de codones para
    subgrupos de organismos formando así vectores 20
    dimensionales con los que se realizaron las pruebas
    estadísticas.
  • Calcular las distancias genéticas entre los pares de
    poblaciones estudiadas donde cada distancia equivale al grado
    de divergencia proporcional entre las dos poblaciones, en la
    base de datos  de aminoácidos, utilizando la
    distancia de Hellinger y la Entropía Relativa.
  • Realizar el análisis estadístico aplicando la
    técnica del CHAID y Análisis de Discriminante.
  • Evaluar la eficacia de los clasificadores a través de
    Curvas ROC y los parámetros que se obtienen de la matriz
    de confusión que nos permita sustentar la hipótesis
    de investigación.
  • Construir los árboles filogenéticos referidos a
    la base de datos de aminoácidos,  mostrando nuevos
    aspectos de  las relaciones de evolución entre las
    especies.

Novedad Científica

La novedad científica del presente trabajo se resume
en:

  1. Se encuentran evidencias estadísticamente
    significativas acerca de la factibilidad del empleo del
    número estimado de codones que codifican para cada
    aminoácido en la clasificación taxonómica de los
    organismos vivos.
  2. Se muestran la factibilidad del empleo de las estimaciones
    de las probabilidades de aparición de los aminoácidos
    en proteínas en la construcción de árboles
    filogenéticos y en la detección de posibles ancestros
    extintos durante grandes extinciones masivas.

Importancia teórica

En este trabajo se desarrolla un tratamiento alternativo de la
información presente en las secuencias de genes y
proteínas para su uso en el análisis taxonómico y
filogenético. En particular, el tratamiento realizado
permite prescindir de los posibles errores tautológicos
derivados de los procesos de multialineación de secuencias
de genes o de secuencias de proteínas, el cual es una etapa
necesaria cuando se realizan los análisis mencionados
partiendo de las secuencias biológicas.

Importancia práctica

La variabilidad de secuencias de genes y de proteínas de
los múltiples organismos utilizadas en esta tesis, implica
que la complejidad de los procedimientos
matemático-computacionales a realizar, para minimizar los
errores tautológicos derivados de los multialinemientos de
las secuencias biológicas, requiere de una logística
computacional e intelectualmente multidisciplinaría muy
costosa y poco frecuente en los grupos de trabajo de
Bioinformática. Luego, el procedimiento que se propone en
este trabajo puede resultar una alternativa muy útil.

Estructura del trabajo

La tesis ha sido estructurada de la siguiente forma:
introducción, 4 capítulos, conclusiones,
recomendaciones y anexos. En el capítulo 1 desarrollamos el
marco teórico que le permita al lector un conocimiento
general del tema abordado y la comprensión de los
capítulos siguientes. En el capítulo 2 nos proponemos
dra cumplimiento a la primera tarea de nuestro trabajo, 
explicando con detalles la conformación de estas bases de
datos. El tercer capítulo está destinado a describir
las pruebas estadísticas  realizadas con el SPSS y un
cuarto capítulo donde se expone lo relacionado con las
relaciones evolutivas encontradas a partir del procesamiento de
estas bases de datos. Finalmente aparecen las conclusiones del
trabajo.

BASES BIOLÓGICAS Y
MATEMÁTICAS

En este capítulo se realiza una descripción de las
bases teóricas que conducen a las aplicaciones que tiene hoy
en día el estudio molecular. Primeramente, se describe un
sumario biológico con aquellos términos más
usados, elementos importantes del código genético y
aspectos biológicos de la evolución molecular.
Posteriormente, se presentan una descripción de  las
herramientas estadísticas y bioinformáticas usadas en
el trabajo. 

1.1.             
Sumario Biológico Teórico

Algunos de los términos biológicos usados en el
trabajo son lo que siguen:

Especie son agrupamientos de poblaciones naturales
intercruzantes, con las mismas características, que ocupan
una determinada área geográfica y están
reproductivamente aisladas de otros grupos.

Taxón: (del griego taxis = arreglo, poner
orden) Término aplicado a un grupo de organismos situado en
una categoría de un nivel determinado en un esquema de
clasificación taxonómica.

Taxonomía: (del griego taxis = arreglo,
poner orden; nomos = ley): Método sistemático de
clasificar plantas y animales. Clasificación de organismos
basada en el grado de similitud, las agrupaciones representan
relaciones evolutivas (filogenéticas).

Micro Taxonomía es la taxonomía que trata los
organismos a nivel de especies y poblaciones.

Macro Taxonomía es la taxonomía que trata los
organismos a nivel de las categorías superiores como
género, familia, orden, etc.

El proteoma es el conjunto completo de proteínas
que se expresan en el genoma. Algunos genes codifican para
múltiples proteínas, el tamaño del proteoma es
mayor que el número de genes. A veces el término se usa
para describir el comportamiento de proteínas expresadas por
una célula en un momento.  Puede usarse para referirse
al juego de proteínas codificadas por el genoma entero 
o en particular para cualquier célula o tejido. 

El genoma es el juego completo de genes de un
organismo. Se define por la sucesión de ADN completa, aunque
en la práctica no puede ser  posible identificar
exactamente cada gen solamente en base a la sucesión que lo
representa.

El transcriptoma es el juego completo de genes
expresado bajo particulares condiciones. Se define como el juego
de moléculas de ARN que están presentes, y puede
referirse a un solo tipo de célula o a la unión
más compleja de células o al organismo completo. Como
algunos genes generan el mRNAs múltiple, es probable que el
transcriptoma sea más grande que el número de genes
definido directamente en el genoma.

Las proteínas pueden funcionar independientemente o como
parte del multiprotein. Si se pudieran  identificar todas
las interacciones entre  proteínas, podríamos
definir el número total de dominios  independientes de
proteínas. 

Ortólogos son las proteínas correspondientes
en dos especies diferentes en  sucesiones homólogas.
Por lo general contamos que dos genes en organismos diferentes,
proporcionan funciones correspondientes si sus secuencias son
similares sobre el 80 % de la longitud, Figura 1.1.1. Según
este criterio, el 20 % aproximadamente de los genes de mosca
tiene ortólogos tanto en la levadura como en el gusano. Todo
el reino eucariotes posiblemente requiere estos genes. La
proporción aumenta al 30 % cuando la mosca y el gusano son
comparados, representando la adición de las funciones que
son comunes al reino eucariotes multicelular [1].

Figura 1.1.1. Las proteínas
Ortólogos.

Los genes quehaceres domésticos (gen Constitutivo)
son aquéllos (teóricamente) expresados  en
todas  las células porque ellos proporcionan funciones
básicas necesarias para el sustento de todos los organismos
celulares. 

El estudio de las secuencias genómicas puede ayudar a la
comprensión de la función de las proteínas y los
genes. Los estudios de proteína y evolución del gen
involucran la comparación de sucesiones homólogas que
tienen los orígenes comunes pero pueden o no tener una
actividad común. Sucesiones que comparten un arbitrario
nivel de similitud determinado por la alineación de
emparejar las bases son homólogas. Ellos se heredan de un
común antepasado que tenía estructura similar, aunque
la estructura del antepasado puede  ser difícil de
determinar porque se ha modificado a través del descenso.
Homólogos son la mayoría normalmente cualquier
ortólogo, parólogos, o xenólogos.

Ortólogos son homólogos producidos por la
especiación. Ellos representan genes derivados de un
antepasado común que divergió, son asociados con la
deuda de la divergencia de los organismos,  tienden a tener
función similar. 

Parólogos son homólogos producidos por la
duplicación del gen. Ellos representan los genes derivados
de un gen hereditario común que se reprodujo dentro de un
organismo y entonces como consecuencia divergido,  tienden a
tener las funciones diferentes. 

 Xenólogos son homólogos que son el
resultado del traslado del gen horizontal entre dos
organismos.  

Arqueo bacterias (del griego arkhaios = antiguo;
bakterion = bastón: grupo de procariotas de unos
3.500 millones de años de antigüedad, presentan una
serie de características diferenciales que hicieron que Carl
Woese  profesor de la Universidad de Illinois, Urbana,
U.S.A., proponga su separación del reino Moneras y la
creación de uno nuevo: Archaea, propuesta que hoy es
aceptada.

ARN ribosómico: Uno de los tres tipos de ARN, el
ARNr es un componente estructural de los ribosomas. Son el "core"
(parte principal) de los ribosomas y posiblemente la clave del
mecanismo de traducción de las proteínas. Su estudio
comparativo llevó a postulación de un Árbol
Filogenético Universal.  

Eubacterias (del griego eu = bueno, verdadero;
bakterion = bastón): subgrupo del reino Monera que
incluye a las bacterias verdaderas como Escherichia
coli

Eucariotas (del griego eu = bueno, verdadero;
karyon = núcleo, nuez): organismos caracterizados por
poseer células con un núcleo verdadero rodeado por
membrana. El registro arqueológico muestra su presencia en
rocas de aproximadamente 1.200 a 1500 millones de años de
antigüedad.

Filogenía (del griego phylon = raza,
tribu):

1) el estudio de relaciones evolutivas en un grupo.

 2) hipótesis evolutiva representada en un diagrama
como un "árbol evolutivo".

3) estudio de la formación y la evolución de los
organismos, con el objeto de establecer su parentesco.

Genes (del griego genos = nacimiento, raza; del
latín genus = raza, origen): segmentos
específicos de ADN que controlan las estructuras y funciones
celulares; la unidad funcional de la herencia. Secuencia de bases
de ADN que usualmente codifican para una secuencia
polipeptídica de aminoácidos.

LUCA (del ingles, Last Universal
Cellular Ancestor): antepasado común de las
células modernas equivale a lo que es Lucy en el árbol
evolutivo de Homo sapiens, es decir, no la primera
célula sino una célula ya evolucionada, con todas las
características de sus futuros descendientes: los actuales
procariotas y eucariotas (ADN, Código genético,
síntesis proteica etc.). Término propuesto en un
coloquio de la Fundación Treille:  
http://www-archbac.u-psud.fr/Meetings/LesTreilles

Transferencia horizontal de genes: mecanismo por el
cual se transmiten genes individuales, o grupos de ellos, de una
especie a otra.

Secuencia conservada: Secuencia de base en una
molécula de ADN (o de aminoácidos en una proteína)
que ha permanecido prácticamente intacta a lo largo de la
evolución.

Evolución paralela o convergente es la
evolución de un carácter en dos o más especies,
como la aptitud para volar, puede producirse de dos formas. El
carácter puede aparecer en un ancestro común a ambas
especies y transmitirse por herencia; en este caso se habla de
homología. Los caracteres considerados podrían asimismo
evolucionar de manera independiente en cada especie. En la
evolución paralela se conserva el estado ancestral de las
dos especies que comparten el carácter común; en la
evolución convergente se modifica el estado ancestral. Por
ejemplo la capacidad de volar se ha desarrollado de manera
independiente en murciélagos, aves e insectos, además
de en grupos ahora extinguidos y conocidos por sus fósiles,
como los reptiles llamados pterosaurios. Todos estos animales han
desarrollado alas por evolución convergente.

Una extinción masiva (también llamado evento
a nivel de extinción o ELE por sus siglas en inglés) es
un período de tiempo en el cual desaparece un número
muy grande de especies. Por el contrario, se estima que en
períodos normales las especies desaparecen a un ritmo de
entre dos y cinco familias biológicas de invertebrados
marinos y vertebrados cada millón de años. Desde que la
vida empezó en la Tierra se han detectado seis sucesos de
extinción graves en el eón Fanerozoico.

1.2.             
El código genético y aspectos biológicos de la
evolución molecular.

La Biología Teórica actual centra su atención
en la investigación de las estructuras básicas de la
vida. Una de estas estructuras básicas es el sistema
bioquímico que hace posible el flujo de la información
genética en los organismos vivos, el código
genético. La relación entre las secuencias de ADN y las
proteínas correspondientes es llamada código
genético [1].  En este sistema se establecen las reglas
mediante las cuales toda secuencia de nucleótidos del ADN,
correspondiente a un gen, es transcripta en la secuencia de
codones del ARNm y seguidamente es traducida en la secuencia de
aminoácidos de la proteína correspondiente.
Inicialmente se pensó que el código era universal
-abarcando a todas las especies vivas- pero, posteriormente,
fueron encontradas variaciones nucleares y mitocondriales [2]
(para una revisión ver [3]). Sin embargo, estas variaciones
son limitadas y corresponden esencialmente a reasignaciones de
uno o varios codones a otros aminoácidos. Luego, el
código genético puede ser considerado, con justicia,
universal [4].

El código genético es la piedra angular del sistema
de información genética. Consecuentemente, es de
esperar que toda construcción teórica que intente
explicar las relaciones cuantitativas y cualitativas existentes
en el sistema de información genética tome como punto
de partida el código genético. Lewin también
define el código genético como la correspondencia entre
los tripletes de bases en el ADN (o en el ARN) y los
aminoácidos en las proteínas. En el código
genético encontramos que los aminoácidos, excepto el
Triptófano (W) y la Metionina (M), son codificados por
más de un codón, por lo cual se dice que es un
código degenerado. Las reglas mediante las cuales los
aminoácidos fueron asignados a los tripletes de base que
forman el código genético constituyen un enigma hasta
el presente.El conjunto de tripletes de bases o codones que
forman el código genético es una extensión del
alfabeto de cuatro "letras" encontradas en la molécula del
ADN.

Tabla 1.2.1. Tabla del código genético
estándar a, b.

 

Segunda base del Codón

 

 

 

U

C

A

G

 

 

Primera base del Codón

U

UUU

Phe

F

UCU

Ser

S

UAU

Tyr

Y

UGU

Cys

C

U

Tercera base del Codón

UUC

UCC

UAC

UGC

C

UUA

Leu

L

UCA

UAA

TER

 -

UGA

TER

A

UUG

UCG

UAG

UGG

Trp

W

G

C

CUU

CCU

Pro

P

CAU

His

H

CGU

Arg

R

U

CUC

CCC

CAC

CGC

C

CUA

CCA

CAA

Gln

Q

CGA

A

CUG

CCG

CAG

CGG

G

A

AUU

Ile

I

ACU

Thr

T

AAU

Asn

N

AGU

Ser

S

U

AUC

ACC

AAC

AGC

C

AUA

ACA

AAA

Lys

K

AGA

Arg

R

A

AUG

Met

M

ACG

AAG

AGG

G

G

GUU

Val

V

GCU

Ala

A

GAU

Asp

D

GGU

Gly

G

U

GUC

GCC

GAC

GGC

C

GUA

GCA

GAA

Glu

E

GGA

A

GUG

GCG

GAG

GGG

G

 

 

U

C

A

G

 

 

a Los aminoácidos codificados por cada
codón se representan con el símbolo de tres letras y el
símbolo de una letra.

b El codón AUG es utilizado con mayor
frecuencia como codón de inicio de la transcripción y
codifica para el aminoácido Metionina (Met). Los codones
UAA, UAG y UGA (TER) son marcadores del final de los genes.

Estas "letras" son las bases nitrogenadas del ADN: adenina,
guanina, citosina y timina, las cuales son denotadas usualmente
como A, G, C y T respectivamente (en la molécula del ARN la
base T es cambiada por el uracilo, U). En la doble hélice
formada por el ADN, la base G es complementaria de la base C y la
base A es complementaria de la base T. Estas bases están
apareadas en la doble hélice de acuerdo con la siguiente
regla: GºC, AºT, donde "-" simboliza un puente de
hidrógeno.

El código genético estándar (Tabla 1.2.1) puede
ser considerado, con toda justicia, universal [4],  pues
solo existen algunas variaciones en mitocondrias, bacterias y
algunos eucariotes unicelulares  (para una revisión ver
[3]). Sin embargo, estas variaciones son limitadas y corresponden
esencialmente a reasignaciones de uno o varios codones a otros
aminoácidos. Los códigos genéticos conocidos han
sido usualmente representados en tablas de cuatro entradas donde
los codones están localizados atendiendo a la segunda base.
Estas tablas pueden encontrarse en la página web (del NCBI):
http://130.14.29.110/Taxonomy/Utils/wprintgc.cgi?mode=c.

En la tabla del código genético estándar tres
entradas corresponden a los cambios de bases en los codones,
realizados de acuerdo a diferentes criterios. Como resultado, los
aminoácidos hidrofóbicos e hidrofílicos quedan
localizados en diferentes columnas. De la observación del
código genético se destaca que la degeneración del
código implica solamente  a la tercera posición
del codón en la mayoría de los casos (son excepciones
la Arginina (R), la Leucina (L) y la Serina (S) (Tabla 1.2.1). De
esta forma resulta que las dos primeras bases de cada codón
son las determinantes principales de su especificidad. La
posición tercera, esto es, el nucleótido situado en el
extremo 3" del codón tiene menor importancia y no encaja con
tanta precisión, está suelto y tiende a
"vacilar" según expresiones de F. H. C. Crick [2]. De
manera que en la tabla del código estándar localizamos
una partición natural en cuatro grupos de aminoácidos
atendiendo a la base encontrada en la segunda posición: los
aminoácidos cuyos codones poseen en la segunda posición
la base U, los que poseen A, los que poseen G y los que
poseen C (Tabla 1.2.1). Esta partición resalta una
diferencia en las propiedades fisicoquímicas de los
aminoácidos; por ejemplo, los aminoácidos que tienen U
en la segunda posición de sus codones son hidrofóbicos:
{I, L, M, F}[1], mientras que los aminoácidos
que tienen A en la segunda posición son hidrofílicos
(también conocidos como aminoácidos polares): {D, E, H,
N, K, Q, Y} [2]. Tales observaciones llevaron a Epstein
señalar que los aminoácidos afines deben tener alguna
relación extendida entre sus codones [5, 6]. Las
regularidades observadas en el código genético
-ampliamente discutidas en [2]- sugirieron desde su
descubrimiento que la asignación de los aminoácidos a
los codones no debió ocurrir al azar [2, 7]. La tendencia a
representar aminoácidos similares por codones similares
minimiza los efectos de las mutaciones. Este hecho incrementa la
probabilidad de que un simple cambio de base no  resulte en
la sustitución de un aminoácido por otro o, al menos,
involucre aminoácidos con propiedades fisicoquímicas
similares [2].

Por otra parte algunos autores han planteado que el
código genético está optimizado y fijado [7, 8];
aunque autores, como Woese y Gillis y colaboradores, han sugerido
que el código genético pudo ser optimizado para limitar
los errores en los procesos de transcripción y de
traducción [4, 9]. En realidad, parece que el código
genético ha evolucionado en la dirección de minimizar
las consecuencias de los errores producidos durante la
transcripción y la traducción [10]. Un código
genético óptimo se refiere a una asignación
óptima de los aminoácidos a los codones de manera tal
que los efectos negativos causados por los eventos mutacionales
durante el proceso de evolución molecular sean minimizados
[23,24].

La importancia de la posición de las bases es sugerida
por las frecuencias de errores encontradas en los codones. En
otras palabras, los errores −mutaciones fijadas en la
población de genes− en la tercera base del codón
son más frecuentes que en la primera y estos a su vez son
más frecuentes que los errores en la segunda base [9,
11-13]. Estas posiciones son, sin embargo, más conservativas
con respecto a los cambios en la polaridad de los
aminoácidos codificados [14]. Como consecuencia, los efectos
de las mutaciones están reducidos en los genes y las
mutaciones fijadas en la población decrecen desde la tercera
base a la segunda.

En los diferentes organismos (especies) existen diferencias en
cuanto al uso que se hace de cada codón [15]. Se ha
determinado que existe un uso preferencial de algunos codones
sinónimos sobre otros, de manera que algunos codones son
más frecuentemente usados que otros (ver por ejemplo.
http://www.kazusa.or.jp/codon) y cada especie tiene sus codones
"preferidos" o codones más frecuentemente usados. Esto
significa que muestran un sesgo en el uso de los codones
sinónimos. El uso de los codones no es al azar y puede estar
asociado a varios factores tales como el nivel de expresión
genética [16], la longitud del gen [17] y la estructura
secundaria de las proteínas [17- 21]. Y aún más,
para la mayoría de los aminoácidos en todas las
especies vivas existe una asociación altamente significativa
con la función del gen correspondiente, indicando que, en
general, el uso de codones al nivel de aminoácidos
individuales está estrechamente coordinado con la
función del gen [22]. Esto nos sugiere que para los codones
existen diferencias cuantitativas en valores que son expresados
en las secuencias de codones de los genes. Estas diferencias
cuantitativas precisamente nos posibilitan una descripción
formal, mediante modelos matemáticos, de las relaciones
existentes entre los codones y entre los genes.

1.3.       Herramientas
estadísticas y bioinformáticas

El cálculo de probabilidades suministra las reglas
apropiadas para cuantificar la incertidumbre y constituye la base
para la estadística inductiva o inferencial. Las medidas no
paramétricas de divergencia entre distribuciones de
probabilidad se definen como expresiones funcionales, que miden
el grado de discrepancia entre dos distribuciones cualesquiera,
no necesariamente pertenecientes a una misma familia
paramétrica. Después de los trabajos pioneros de
Pearson (prueba ji-cuadrado) y Hellinger (la famosa distancia de
Hellinger, publicada en 1909), medida de distancia definida sobre
el espacio de las distribuciones de probabilidad, otros autores
han estudiado divergencias (Shannon, Kullbach y Leibler, Renyi,
etc). La divergencia aplicada a distribuciones de probabilidad
serían introducidas por Csiszar (1963, 1967, 1972, 1975),
estudiadas en diferentes versiones por Matusita (1955, 1964),
Havrda y Charvat (1967), Vajda (1972) y generalizadas por Burbea
y Rao (1982). Las divergencias tienen aplicaciones en
inferencia estadística y en procesos estocásticos.

Para desarrollar nuestra investigación como herramientas
estadísticas se usaron del SPSS el análisis CHAID 
y el Discriminante, para evaluar el desempeño de estos
clasificadores se realizaron las curvas ROC y se calcularon los
parámetros a partir de la matriz de confusión. Como
herramienta Bioinformática se uso el MEGA4.  A
continuación describimos algunos aspectos técnicos de
estas herrmientas.

1.3.1.        CHAID,
Chi-squared Automatic Interaction Detector

El método detector de interacciones basado en
chi-cuadrado (CHAID) surge como una técnica de
segmentación [33]. Su propósito es segmentar o dividir
una población en dos o más grupos en las
categorías del mejor predictor de una variable dependiente.
El algoritmo se basa en la prueba chi-cuadrado para seleccionar
la mejor división en cada paso, la división se realiza
hasta que no haya más variables predictoras significativas o
hasta que se satisfaga algún otro criterio de parada,
relacionado por ejemplo con el número mínimo de casos
en un nodo para analizar su divisibilidad.

En un estudio real existen frecuentemente múltiples
variables (predictivas o independientes) que pueden tener
asociación con una variable dependiente y además
efectos de interacción entre ellas sobre dicha variable
dependiente. La presentación de muchas tablas de
contingencia, no siempre refleja las asociaciones esenciales, y
usualmente se convierte en un listado inútil de tablas que
desinforman en lugar de orientar, aun cuando se utilicen
estadísticos (como la V de Cramer) para ordenar la
fortaleza de las asociaciones. Un estudio multivariado trata de
enfocar el efecto posible de todas las variables conjuntamente
incluyendo sus posibles correlaciones; pero puede ser
particularmente interesante, si considera además la
posibilidad de la interacción entre las variables
predictivas sobre la variable dependiente. Cuando el número
de variables crece, el conjunto de las posibles interacciones
crece en demasía, resulta prácticamente imposible
analizarlas todas y por ello adquiere especial interés una
técnica de detección automática de interacciones
fundamentales. CHAID es exactamente eso, es útil en todos
aquellos problemas en que se quiera subdividir una población
a partir de una variable dependiente, y posibles variables
predictivas que cambien los valores de la variable dependiente en
cada una de las subpoblaciones o segmentos. La técnica de
CHAID es capaz de segmentar la población en grupos de
acuerdo con determinados valores de las variables y sus
interacciones que distinguen de forma óptima, diferencias
esenciales en el comportamiento de la variable dependiente (CHAID
1994).

Un análisis de CHAID automático comienza dividiendo
la población total en dos o más subgrupos distintos
basado en las categorías del mejor predictor de la variable
dependiente (en principio por el estadígrafo chi-cuadrado de
Pearson) [27]. Divide cada uno de estos subgrupos en
pequeños sub-subgrupos y así sucesivamente. CHAID
visualiza los resultados de la segmentación en forma de un
diagrama tipo árbol cuyas ramas (nodos) corresponden a los
grupos (subgrupos conformados en cada nivel). Entiéndase en
este caso que está seleccionando sucesivamente las variables
más significativamente asociadas con la clase y las
variables que deben ser fuentes de estratificaciones
sucesivas.

1.3.2.          
Analisis Discriminante.

Las técnicas de comparación Multivariada que se
basan en particular en la construcción de una función
de clasificación -conocida como análisis discriminante
– han sido desarrolladas recientemente comparadas con otras
técnicas. Las primeras ideas surgen en la cuarta década
del siglo XX, relacionadas precisamente con investigaciones
biológicas y antropométricas, y desarrolladas
fundamentalmente por Mahalonobis (1930) y Fischer (1936).

Son las técnicas de comparación Multivariada
más ricas porque permiten la distinción general de los
grupos, la determinación del orden de importancia de las
variables discriminantes o distintivas y la precisión de una
variable aleatoria discreta (Grupo) respecto a m variables en
principio continuas o al menos ordinales:

Para determinar el orden de importancia de las variables
 en la
clasificación, se puede utilizar el coeficiente de
correlación de estas variables con la función
discriminante y tener una medida de las posibilidades de
error.

La interpretación de la no presencia de una variable en
la ecuación no puede ser interpretada como la independencia
del proceso de clasificación respecto a esta variable pues
de hecho en la ecuación puede haber otras variables que se
correlacionan fuertemente con ésta. En definitiva la
importancia absoluta de una variable la sigue brindando la
significación del coeficiente de correlación de esa
variable con la función, esté o no ella en la
ecuación. Usualmente se exige que el por ciento de casos
bien clasificados del total de la muestra no sea inferior a un
75% para que el criterio de clasificación sea considerado
bastante bueno; pero este porcentaje "mínimo" puede variar
sobre todo en el sentido de ser más exigente, en dependencia
de los requisitos y características de la
investigación.

La lambda de Wilks es otro estadístico que permite
evaluar la hipótesis de que dos o más grupos provienen
de poblaciones con las mismas medias para un conjunto de
variables. El valor de esta lambda siempre está entre 0 y 1.
Grandes valores de lambda indican que los grupos no parecen ser
diferentes (en el caso de lambda igual a 1  los grupos
fueran el mismo). Valores de lambda pequeños indican
diferencias entre las medias de grupos. Precisamente por esto en
cada paso del análisis discriminante se introduce la
variable que más contribuye a la reducción de lambda
entre los grupos. El estadístico lambda a veces se refiere
en la literatura como estadístico U del análisis
multivariado y se considera uno de los mejores criterios de
comparación Multivariada y poco sensible a hipótesis de
normalidad.

Existen varios métodos de análisis discriminante que
pueden conducir a diferentes funciones de clasificación. En
general estos métodos parten de hipótesis de normalidad
conjunta de la variable vectorial  entre
los grupos; pero en última instancia y sobre todo, en la
normalidad de la variable que define la función
discriminante:

Esto permite que podamos utilizar variables  que no
tienen necesariamente una distribución normal conjunta, de
hecho podemos utilizar incluso variables ordinales siempre y
cuando la función discriminante resultante cumpla las
condiciones de normalidad. Si se desea utilizar una variable
nominal con k valores posibles, es conveniente sustituirla
por k – 1 variables con valores (-1, 0, 1) como se hace en
la regresión lineal múltiple.

La validez del análisis discriminante es menos sensible a
la violación de la hipótesis de homogeneidad de
covarianza si los volúmenes de las muestras son iguales. Se
recomienda por ello utilizar diseños equilibrados.

1.3.3.  El desempeño de los clasificadores
usados. Matrices de confusión y las curvas ROC (Curva
característica de operación del receptor)

El desempeño de un clasificador y sus diferentes
alternativas de uso son validadas siguiendo los criterios
clásicos de evaluación, en el trabajo se usan los
parámetros de las matrices de confusión y las curvas
ROC.

Las matrices de confusión contienen información
acerca de los valores reales y las clasificaciones predichas
hechas por cualquier sistema de clasificación. El
desempeño de un sistema es usualmente evaluado usando los
datos en dicha matriz.

 

Clase verdadera

Pos

Neg

Clase Predicha

pos

TP

FP

neg

FN

TN

Total columna

P

N

Figura1.3.3.1. Matriz de
confusión.

En la Figura1.3.3.1 se muestra la matriz de confusión de
un problema para dos clases, donde Pos/pos es la clase
positiva y Neg/neg  la clase negativa; TP y
TN son los elementos bien clasificados de la clase
positiva y negativa respectivamente. FP y FN son
los elementos negativos y positivos mal clasificados
respectivamente.

Han sido definidos varios términos estándar para
medir el desempeño de un clasificador [26], de uso general
en cualquier rama donde se apliquen sistemas de
clasificación:

La Exactitud (Ac, del inglés Accuracy) es la
proporción del número total de predicciones que fueron
correctas:

La Razón de Verdaderos Positivos (TP, del
inglés True Positive Rate), es la proporción de casos
positivos que fueron correctamente identificados:

 

La
Razón de Verdaderos Negativos (TN, del
inglés True Negative Rate) es la proporción de casos
negativos que han sido correctamente clasificados:

 

Finalmente, la Precisión (P, en inglés,
también Precisión) es la proporción de casos
predichos positivos que fueron correctos:

 

La Razón de Falsos Negativos (FN, del inglés
False Negative Rate es la proporción de casos positivos que
fueron incorrectamente clasificados como negativos:

La
Razón de Falsos Positivos (FP, del
inglés False Positive Rate) es la proporción de casos
negativos que han sido incorrectamente clasificados como
positivos:

 

Cuando el problema de clasificación abarca más de 2
clases, digamos tres clases, hay una TP rate para cada clase.

Otra forma de evaluar el rendimiento de un clasificador es por
las curvas ROC (Receiver Operator Characteristic,
Curva característica de operación del receptor)
(Fawcett 2004) [25]. En esta curva se representa el valor de
razón de TP vs la razón de FP, mediante la
variación del umbral de decisión. Se denomina umbral de
decisión a aquel que decide si una instancia x, a
partir del vector de salida del clasificador, pertenece o no a
cada una de las clases. Usualmente, en el caso de dos clases se
toma como umbral por defecto 0.5; pero esto no es siempre lo
más conveniente. Se usa el área bajo esta curva,
denominada AUC (Área Under the Curve, área
bajo la curva ROC
) como un indicador de la calidad del
clasificador. En tanto dicha área esté más cercana
a 1, el comportamiento del clasificador está más
cercano al clasificador perfecto (aquel que lograría 100% de
TP con un 0% de FP).

Una curva ROC es un gráfico con la Razón de Falsos
Positivos (FP=1-Sp) en el eje X y la Razón de Verdaderos
Positivos (TPrate) en el eje Y. Las curvas quedan en el cuadrado
[0,1] x [0,1]. El vértice superior izquierdo de este
cuadrado: (0,1) representa al clasificador perfecto porque
clasifica todos los casos positivos y todos los casos negativos
correctamente pues FPrate=0 y TPrate=1. El vértice inferior
izquierdo (0,0) representa un clasificador que predice todos los
casos como negativos, mientras que el vértice superior
derecho (1,1) corresponde a un clasificador que predice todos los
casos como positivos. El punto (1,0) es un clasificador
pésimo o estúpido que resulta incorrecto en todas las
clasificaciones.

Una curva (o un punto) ROC es independiente de la
distribución de las clases o el costo de los errores, es
decir, no depende de que en la base de aprendizaje haya más
casos negativos que positivos o viceversa.

Una curva ROC resume toda la información contenida en la
matriz de confusión ya que FNrate es el complemento de
TPrate y TNrate es el complemento de FPrate. Las curvas ROC
constituyen una herramienta visual para examinar el equilibrio
entre la habilidad de un clasificador para identificar
correctamente los casos positivos y el número de casos
negativos que están incorrectamente clasificados.

El área bajo la curva ROC puede ser usada como una medida
de la exactitud en muchas aplicaciones. Si se comparan dos
clasificadores, a través de sendas curvas ROC podemos
decidir en general que la de mayor área bajo ella identifica
al mejor clasificador.

Cuando el problema de clasificación abarca más de 2
clases, digamos tres clases, habrá que hacer una curva ROC
para cada clase y se tendrá un área bajo cada una de
las curvas.

1.3.4.  MEGA: "Molecular Evolutionary Genetics
Analysis"

MEGA es un instrumento integrado para conducir la
alineación de secuencia automática y manual, deduciendo
filogenéticamente árboles, extrayendo de bases de datos
de web, estimando las tarifas de evolución molecular y
probando hipótesis evolutivas [32].

Las relaciones filogenéticas de genes u organismos
normalmente se presentan en árboles formados con una
raíz que se llama un árbol arraigado. También es
posible dibujar un árbol sin una raíz. El modelo de la
bifurcación del árbol se llama una topología.

Hay numerosos métodos para construir los árboles
filogenéticos de datos moleculares (Nei y Kumar 2000). Ellos
pueden ser clasificados en los métodos de Distancia,
métodos de parsimonia y métodos de Probabilidad.

UPGMA es un método que asume que la proporción de
nucleotide o substitución del aminoácido es el mismo
para todos los linajes evolutivos. Un aspecto interesante de este
método es que él produce un árbol que imita un
árbol de la especie. El MEGA4 brinda la posibildad al
usuario de  introducir su propia matriz de distancia para
construir los árboles filogenéticos. Esta posibilidad
fue aprovechada en nuestro trabajo.

CONSTRUCCIÓN DE LAS BASES DE
DATOS Y PREPARACIÓN DE LAS MISMAS

La comparación de la sucesión del genoma humana con
sucesiones encontradas en otras especies de organismos vivos es
revelador  del proceso de evolución,  en nuestro
trabajo se construyen dos bases de datos con 9 grupos de
organismos(archaea, bacterias, invertebrados, insectos, plantas,
vertebrados que no son mamíferos, mamíferos que no son
primates, primates y homo sapiens), ellas se componen una de
cadenas de aminoácidos ver Anexo2 y otra de la frecuencia
del uso de codones ver Anexo 3, ambas extraídas de Internet,
la primera de Direct public access to the National Library of
Medicine's Medline Biomedical literature search engine through
the NCBI.  www.ncbi.nlm.nih.gov/entrez

(PubMed) y la segunda de Codon Usage Database. Los grandes
bancos de datos existentes en el mundo, dentro de los que se
encuentran los usados por nosotros, se caracterizan por reunir
las proteínas con gran variedad, dentro de las que se
encuentran aquellas que podrían falsear nuestra
información por su carácter de proteína
conservadas dentro del proceso evolutivo de las especies, por lo
que se realizó un minucioso trabajo de selección de las
proteínas representativas en cada especie en cuestión.
Además de contar con una representatividad de organismos y
de proteínas en cada grupo, consideramos necesario explicar
que los resultados obtenidos en la investigación muestran en
determinados momentos aquellos datos presentes en la literatura,
[1] como ejemplo en la Figura 2.1, donde se analizan los genes
según su distribución en la naturaleza. Empezando con
los más representativos, 21% de genes son comunes a
eucariotas y procariotas. éstos tienden a codificar para
proteínas que son esenciales para todos los organismos
vivientes – el metabolismo típicamente básico,
repetición, trascripción, y traducción.

Moviéndonos  en el sentido de las agujas del reloj,
el 33% de genes se presentan generalmente en los organismos
eucariotes. éstos tienden a codificar para las
proteínas involucradas en funciones que son generales a las
células eucariotas pero no a las bacterias – por ejemplo,
ellos pueden tener relación con especificar organelas o
componentes del citoesqueleto. Otro 24% de genes sin especificar
los vertebrados que incluyen son necesarios  para  el
multicelularismo y para el desarrollo de diferentes tipos de
tejidos. Y el 22% de los genes son únicos  de  los
vertebrados mamíferos.

Figura 2.1. Distribución de los genes en la
naturaleza según las funciones necesarias para la vida.

éstos principalmente codifican para las proteínas de
los sistemas  inmune y nervioso; ellos codifican para muy
pocas enzimas, relacionado con la idea que las enzimas
tienen  orígenes antiguos, y que las funciones
metabólicas se originaron temprano en el proceso de 
evolución. Observamos, por consiguiente, que la
progresión de las bacterias a los vertebrados requiere la
suma de grupos de genes que representan las nuevas funciones
necesarias en cada fase.

Una manera de definir las proteínas normalmente
necesitadas es identificar las proteínas presentes en todos
los proteomas [1]. Comparando el proteoma humano en más
detalle con los  proteomas de  otros organismos, 46%
del proteoma de levadura, 43% del proteoma del gusano, y 61% del
proteoma de la mosca están presentes en el proteoma humano.
Un grupo importante de  aproximadamente 1300 de las
proteínas están presentes en los cuatro proteomas. Las
proteínas comunes son básicas, aquellas requeridas para
las funciones esenciales lo cual queda resumido en Figura 2.2.
Las funciones principales se representan por la trascripción
y  la traducción (35%), metabolismo (22%), transporte
(12%), repetición de ADN y  la modificación (10%),
proteína de plegado y degradación (8%), y el resto
representan otros procesos celulares.

Figura 2.2 Distribución de los
genes según los procesos celulares que realizan.

Uno de los rasgos llamativos del proteoma humano es que tiene
muchas nuevas proteínas  comparándolo con otros
organismos eucariotes, pero tiene relativamente pocos nuevos
dominios de la proteína. La mayoría de los dominios de
las proteínas parecen ser comunes al reino animal. Hay sin
embargo, muchas nuevas arquitecturas de la proteína,
definidas como las nuevas combinaciones de dominios. 

Además de los genes funcionales, hay también copias
de genes que se han convertido en genes no funcionales
(identificados como tal por las interrupciones en las sucesiones
de proteína codificadas). éstos se llaman  pseudos
genes (vea  Molecular Biology 1.4.6 Pseudogenes are dead
ends of evolution
). El número de pseudos genes puede ser
grande. En el ratón y en el genoma humano, el número de
pseudo genes es aproximadamente el 10% del número de genes
potencialmente activos.

Teniendo en cuenta las  razones expuestas anteriormente,
la selección de las bases de datos fue primordial para el
logro de nuestros objetivos.

1.4.             
Construcción de las bases de datos.

La base de datos de proteínas para el entrenamiento esta
formada por los nueve grupos nombrados anteriormente cada uno con
aproximadamente 1000 cadenas y una variedad en cuanto a
organismos y tipos de proteínas ver Tabla 2.1.1, esta base
es nombrada en el trabajo como base curada por la selección minuciosa tanto de los
organismos como de los tipos de proteínas que la forman.
Luego se confeccionó una base de datos para validar
resultados, esta la nombramos base no
curada  la que esta formada por los mismos nueve taxa
nombrados, pero con alrededor de 500 cadenas de aminoácidos
y sin hacer ningún tipo de selección en lo que se
refiere a proteínas que la forman. Para los análisis
realizados en las taxa: archaea-bacteria,
archaea-bacteria-eucariotes, vertebrados-invertebrados,
vertebrados no mamiferos-mamiferos y homo sapiens-primates, se
uso el 70% de la base que llamamos extendida que está constituida por la
unión de la base curada más la no curada. Además
en el caso de la taxa archaea-bacteria-eucariotes se uso la base
extendida aumentada en número de
cadenas pero sin tener en cuenta ningún tipo de
selección de las proteínas ni de los organismos que la
forman. En el caso de las taxa vertebrados-invertebrados y
vertebrados no mamiferos-mamiferos se reorganizaron todos
aquellos organismos que pertenecen a estos grupos aumentando asi
el número de secuencias.

Tabla 2.1.1. Bases de datos.

Proteinas

 

 

 

 

 

 

Uso de Codones

 

Base curada

Base no curada

Base extendida

Base curada

Grupos de org.

No. de Sec.

 50 subgrp.

No. de Sec.

 20 subgrp.

Subgrps/No. de Sec.

No. de Sec.

No. de Sec.

 50 subgrp.

Archaea

1566

31

736

36

200/139

27844

1317

26

Bacterias

1334

26

449

22

200/28

5667

830

26

Eucariotes

 

 

 

 

200/124

24927

 

 

Invertebrados

1221

24

768

38

100/37

3742

2187

43

Insectos

1010

20

743

37

 

 

979

19

Plantas

1762

35

488

24

 

 

2114

42

Vertebrados

 

 

 

 

100/93

9387

 

 

Vertebrados no Mamiferos

1498

29

440

21

100/19

1938

1465

29

Mamiferos

 

 

 

 

100/74

7450

 

 

Mamiferos no Primates

1593

31

519

25

 

 

2036

40

Primates

1473

29

394

19

70/26

1867

1831

36

Homo Sapiens

897

28

1162

55

70/20

2059

1821

36

En la base de datos referida al uso de codones contamos al
igual que la anterior con el mismo número de taxa cada una
con alrededor de 1000 cadenas y la variedad en cuanto a tipo
proteínas y especies que la forman, ver Tabla 2.1.1. Los
análisis se realizaron solo con la base curada, no se formaron bases externas pues ello
hubiera requerido mayor tiempo y otros objetivos no trazados en
este trabajo.

1.5.             
Cálculo de los vectores NECk a partir de
las bases de secuencias.

Los sistemas vivos, jerarquizados son altamente complejos ya
desde el inicio de la vida misma [35]. Una bacteria tiene un
sistema génico complejísimo muy similar al de cualquier
Metazoo [28]. Las formas más elementales de estos comparten
con los Metazoos más evolucionados, como los mamíferos,
idénticas porciones de sus genomas. Estos hechos conducen
directamente al planteamiento del problema que da lugar al
trabajo de tesis, el cual acarrea definir el concepto de
"número estimado de codones" (NEC). El concepto de
NEC es derivado de la degeneración del código
genético estándar (CGS) y de la existencia de un uso
diferenciado de codones para cada especie (ver sección 1.1).
Si se supone que el proceso de síntesis de proteínas ha
sido optimizado y adaptado a las variaciones ambientales durante
el proceso de evolución molecular que dio lugar a la
especiación entonces, se debe esperar que, mientras mayor
sea la frecuencia observada de un aminoácido
faa en los genomas de los organismos vivos,
mayor será, en general, su representación en la tabla
del CGS. El NECk que codifican para el
aminoácido k puede definirse como:

                                                      
(2.2.1)

donde k = 1,…, 20 y el número 61 hace
referencia al número total de codones en la tabla del CGS
que codifican para los aminoácidos. Como se muestra en la
Tabla 2.2.1 existe una correlación positiva entre el
NEC y las frecuencias faa en las
proteínas y los genomas de Archaeas, Bacterias y Eucariotes.
Sin embargo, las frecuencias faa deben de estar
afectadas por el uso de codones (ver sección 1.1), de manera
que, como se aprecia en la Tabla 2.2.1, para cada aminoácido
el NEC difiere en alguna medida del número de codones
que codifican para dicho aminoácido en la tabla del CGS (ver
Tabla 1.2.1 y Tabla 2.2.1).

Tabla 2.2.1. Correlación entre el NEC y las
frecuencias faa en las proteínas y los
genomas de Archaeas, Bacterias y Eucariotes.a

Aminoácido

No. Codonesb

Archaeas %

Bacterias %

Eucariotes %

Todos

Frec. Aa c

Ala

4

4.789

4.929

3.953

4.758

4.697

Arg

6

3.611

3.044

3.196

3.190

3.111

Asp

2

3.337

3.087

3.239

3.166

3.172

Asn

2

2.074

2.824

2.904

2.666

2.623

Cys

2

0.543

0.610

1.135

0.671

1.220

Glu

2

4.752

3.874

4.050

4.099

3.782

Gln

2

1.159

2.373

2.611

2.105

2.501

Gly

4

4.569

4.087

3.587

4.130

4.514

His

2

1.037

1.263

1.470

1.238

1.403

Ile

3

4.630

4.301

3.343

4.240

3.233

Leu

6

5.887

6.417

5.704

6.192

5.551

Lys

2

3.684

3.922

3.843

3.855

3.599

Met

1

1.519

1.336

1.421

1.391

1.464

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter