Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 8)

Enviado por María Milena Rodríguez Fernández

Partes: 1, 2, 3, 4, 5, 6, 7, 8

	Mamiferos	94.6	90.3	90.9	92.5	94.6
Validación externa	Vert No Mamif	96.4	96.2	96.4	96.3	96.4
	Mamiferos	96.2	96.4	96.2	96.3	96.2
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).
70 % base de datos extendida	Vert No Mamif	93.1	93.2	93.1	93.2	93.1
	Mamiferos	93.2	93.1	93.2	93.2	93.2
Validación cruzada	Vert No Mamif	88.9	90.5	90.1	89.7	88.9
	Mamiferos	90.5	88.9	89.3	89.7	90.5
Validación externa	Vert No Mamif	96.4	100.0	100.0	98.1	96.4
	Mamiferos	100.0	96.4	96.3	98.1	100.0
Predicciones de los miembros del Grupo con CHAID
70 % base de datos extendida	Vert No Mamif	91.7	93.2	93.0	92.5	91.7
	Mamiferos	93.2	91.7	92.0	92.5	93.2
Validación externa	Vert No Mamif	78.6	84.6	84.6	81.5	78.6
	Mamiferos	84.6	78.6	78.6	81.5	84.6

1.8.6. Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
primates y homo sapiens.

Teniendo en cuenta las peculiaridades de estas dos especies
por su cercania en el árbol filogenético universal,
explicadas el la sección dedicada a esta misma taxa pero
para el estudio de las secuencias de aminoácidos, los
resultados obtenidos con la aplicación del método
CHAID, son esperados desde el punto de vista biológico, pues
existe una aceptada correlación entre todos los
aminoácidos. Solamente tres de ellos no alcanzan valores
significativos, la Serina, la Leucina y Cisteína, mientras
la mayoria muestra indices de clasificación por encima de
90%, como muestra la Tabla 3.3.6.1. Cuando se realiza una
validación al 70% de la base curada, Tabla 3.3.6.2, se
observa que los porcientos de clasificación son inferiores a
los obtenidos anteriormente, sin embargo es de esperar que con
una base externa con este método usando la probabilidad en
el uso de codones se diferencien bien las especies involucradas
en esta taxa, lo cual contribuye a la verificación de una de
nuestras hipótesis de investigación.

Tabla 3.3.6.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA	Sig.	%clasificación
Glicina	0.024266804	93
Metionina	0.016568011	94
Histidina	0.015554361	92
Valina	0.003344738	89
Glutamina	0.002464145	88
Asparagina	0.002171647	85
Alanina	0.000387709	85
Lisina	0.000319111	91
Fenilalanina	0.000218361	86
Arginina	8.5694E-05	91
Prolina	2.31555E-05	91
Isoleucina	2.87011E-06	91
Triptófano	1.68E-06	89
Tirosina	8.32568E-07	92
Ácido Aspártico	2.73194E-07	94
Ácido Glutámico	5.53884E-08	93
Treonina	1.04E-08	92

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.6.2. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

Figura 3.3.6.1 Arbol de Aminoácidos asociados con
los resultados de una validación cruzada en la base curada
con las clasificaciones taxonómica de primates y homo
sapiens.

1.8.6.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis Discriminante realizado en esta taxa en
cuanto al uso de codones se ratifica los resultados con el
método CHAID, pues lo porcientos de clasificación
mejoran considerablemente. Podemos observar en la Tabla 3.3.6.1.1
que las funciones discriminantes canónicas obtenidas con la
introducción de todos los aminoácidos que satisfacen el
test de tolerancia, solo la Tirosina no aparece mientras que con
el método Stepwise aparecen solamente el ácido
Aspártico, la Treonina y la Tirosina.

En la Tabla 3.3.6.1.2 se puede apreciar que la eficacia de las
funciones discriminantes en la separación de los casos en
grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares, indicando el buen desempeño de
las funciones discriminantes.

Con las curvas ROC se ilustra Figura 3.3.6.1.1 que el
análisis Discriminante supera al CHAID, las difencias en los
valores de las áreas bajo la curva Tabla 3.3.6.1.3,
ratifican el hecho de que aunque las diferencias no son altamente
significativas, el Intervalo de confianza asintótico para el
95% del CHAID queda completamente incluído en los intervalos
de los métodos de Discriminante, mostrando su superioridad a
la hora de la clasificación de estos organismos.

Al utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, también nos sugieren que existen algunas
diferencias entre ellos, en la Tabla 3.3.6.1.4 se muestran los
valores de los parámetros mencionados.

Tabla 3.3.6.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos	Función discriminante
Aminoácidos	Todas	Stepwise
Alanina	3.2271755	–
Cisteína	2.3901049	–
Ácido Aspártico	4.3812572	-2.830154
Ácido Glutámico	2.9292366	–
Fenilalanina	2.6504594	–
Glicina	2.0562512	–
Histidina	1.6416941	–
Isoleucina	2.9344641	–
Lisina	1.2136819	–
Leucina	2.4635822	–
Metionina	0.9738945	–
Asparagina	2.571989	–
Prolina	2.4680417	–
Glutamina	1.4374376	–
Arginina	2.3757739	–
Serina	1.889281	–
Treonina	-1.243473	3.2178151
Valina	0.7428819	–
Tirosina	–	2.2715964
Triptófano	1.4286537	–
(Constant)	-122.672	-7.493221

Tabla 3.3.6.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función	Valor principal	% de Varianza	% Var. Acum.	Corr. Canónica	Función	Lambda de Wilks	Chi cuadrado	g.l.	Sig.
Stepwise
1	2.827	100	100	0.859	1	0.261	97.297	3	0.000
Todas las variables
1	4.062	100	100	0.896	1	0.198	104.601	19	0.000

Tabla 3.3.6.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis	Área	Error Estándar	Sig. Asintótica	Intervalo de confianza asintótico para el 95%
Resultados del Análisis	Área	Error Estándar	Sig. Asintótica	Límite inferior	Límite superior
Probabilidad Homo Sapiens (Análisis Disc. Stepwise)	0.999	0.002	0.000	0.996	1.000
Probabilidad Homo Sapiens (Análisis CHAID)	0.932	0.027	0.000	0.879	0.984
Probabilidad Homo Sapiens (Análisis Discriminante)	0.999	0.002	0.000	0.996	1.000

Figura 3.3.6.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.6.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).
	Grupos	Razón de TP	Razón de TN	Prec.	Exac.	% de Clasf.
70 % base de datos extendida	Primates	94.9	100.0	100.0	97.4	94.9
	HomoS	100.0	94.9	94.9	97.4	100.0
Validación cruzada	Primates	87.2	100.0	100.0	93.4	87.2
	HomoS	100.0	87.2	88.1	93.4	100.0
Validación externa	Primates	90.9	100.0	100.0	95.8	90.9
	HomoS	100.0	90.9	92.9	95.8	100.0
Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).
70 % base de datos extendida	Primates	97.4	97.3	97.4	97.4	97.4
	HomoS	97.3	97.4	97.3	97.4	97.3
Validación cruzada	Primates	84.6	94.6	94.3	89.5	84.6
	HomoS	94.6	84.6	85.4	89.5	94.6
Validación externa	Primates	100.0	100.0	100.0	100.0	100.0
	HomoS	100.0	100.0	100.0	100.0	100.0
Predicciones de los miembros del Grupo con CHAID
70 % base de datos extendida	Primates	92.3	89.2	90.0	90.8	92.3
	HomoS	89.2	92.3	91.7	90.8	89.2
Validación externa	Primates	63.6	84.6	77.8	75.0	63.6
	HomoS	84.6	63.6	73.3	75.0	84.6

ANÁLISIS
FILOGENéTICOS.

La reconstrucción de la historia evolutiva de genes y
especies es actualmente uno de los asuntos más importantes
en la evolución molecular. En la medida en que los
análisis filogenéticos realizados sean fiables,
ellos verterán la luz en la sucesión de eventos
evolutivos que han generado la diversidad de hoy día de las
especies y nos ayuda a entender los mecanismos de evolución
así como la historia de organismos.

1.9.
ANÁLISIS FILOGENéTICOS EN LA BASE DE PROTEINAS.

La filogenia es la ciencia de estimar el pasado, en particular
la filogenia molecular basada en comparación de secuencias
de proteínas o de DNA. Un árbol filogenético es un
árbol que muestra las relaciones de evolución entre
varias especies u otras entidades que se cree que tuvieron una
descendencia común, además se consideran una estructura
matemática que se usa para modelar la historia evolutiva de
un grupo de secuencias o de organismos. Usa
información proveniente de fósiles así como
aquélla generada por la comparación estructural y
molecular. En nuestro trababjo se comparan secuecias de
organismos actuales de una base datos curados con la
verificación en una base extendida descritas ambas en el
Capitulo 2.

Los árboles filogenéticos se construyen tomando en
cuenta la teoría de la evolución, que nos indica que
todos los organismos son descendientes de un ancestro común:
la protocélula ver anexo 1. Así, todos los organismos,
ya sean vivos o extintos, se encuentran emparentados en
algún grado.

Para la obtención de los árboles se utilizó el
MEGA 4. En la sección 1.2.2 se explica lo relacionado con
las posibilidades que este software brinda y las herramientas que
fueron utilizadas en el trabajo con el mismo. En particular, el
uso de este software nos permitió seleccionar una
función de distancia apropiada entre los vectores NECk que
nos permitiera obtener árboles plausibles desde el punto de
vista evolutivo, los cuales no se encontraran en abierta
contradicción con las observaciones y evidencias
biológicas.

El uso del MEGA permitió verificar que si las bases de
datos correspondientes a cada grupo taxonómico se
sobrecargan con secuencias de proteínas vinculadas a
procesos biológicos esenciales para todas las células
vivas entonces, al construir el árbol filogenético se
obtienen ramas ubicadas de forma errónea en el árbol.
Un ejemplo concreto se obtiene al sobrecargar la base de
invertebrados con proteínas involucradas en las cadenas de
transporte de electrones, un proceso esencial para todas las
células vivas. En particular, la familia de los citocromos,
vinculadas con estos procesos, se caracteriza por poseer dominios
estructurales en sus secuencias de aminoácidos conservadas,
en la mayoría de los taxa, desde los procariotes hasta el
homo sapiens. Este hecho provoca que gran parte de la
información estadística reflejada en los vectores
NECk sea común para mayoría de los
taxa. Como consecuencia se obtiene el efecto que se observa en el
árbol de la Figura 4.1.1, en el cual los invertebrados (sin
incluir los insectos) se ubican en una rama próxima a los
primates, cuando, desde un punto de vista evolutivo, deben
ubicarse en una rama contígua al ancestro de los
vertebrados. Sin embargo, los insectos (invertebrados no
incluidos en el taxa que lleva este nombre) respecto a los
vertebrados se ubican en una rama con mayor sentido evolutivo. La
causa de este resultado se explica debido a que la base de
insectos posee un mejor balance en cuanto a la variabilidad de
los tipos de proteínas. Debemos mencionar que estos efectos
tienen lugar debido a la naturaleza estadística de la
información utilizada, pues para construir los árboles
las matríces de distancias no se calculan directamente de
las secuencias de proteínas alineadas, como en el
análisis filogenético clásico, sino que se estiman
a partir de vectores que expresan regularidades estadísticas
presentes en las secuencias no alineadas.

Finalmente, la construcción de las bases de datos
teniendo en cuenta las restricciones biológicas descritas en
el capítulo 2, permitió construir un árbol
filogenético que muestra resultados importantes desde el
punto de vista evolutivo en el reino animal [34] (Figuras 4.1.2 y
4.1.3).

Comúnmente cada árbol construido se valida en alguna
medida utilzando un procedimiento bootstrap. En particular,
cuando se parte de secuencias de proteínas alineadas y se
utilizan las funciones de distancia que tiene por defecto el
MEGA4, este software tiene la opción de construir 500
árboles y llegar a un árbol consenso que alcance el
70%. Tal procedimiento no es aplicable a nuestro caso. Luego,
para obtener un árbol consenso se realizaron muestreos
aleatorios de las bases de datos y a partir de cada submuestra
generada se calcularon las matrices de distancia ver Anexo 9.
Tomando una selección aleatoria del 90% de la base se
construyen las primeras 100 matrices obteniéndose un
árbol consenso que representa el 72%. Al construir 100
más se obtiene un árbol consenso que representa el 80%
de los doscientos posibles árboles. Lo anterior corrobora la
información que brinda el árbol obtenido de nuestra
base de datos, dando respuesta asi a nuestra segunda interrogante
de investigación.

Este resultado, además de estar en correspondencia con el
árbol filogenético evolutivamente esperado, presenta la
peculiaridad que dos grupos de organismos, los vertebrados no
mamiferos y los mamiferos están enraizados en el mismo nodo
lo que sugiere una pérdida de información acerca de los
ancestros de estos taxa, en algún momento del proceso
evolutivo. La causa de esta pérdida de información pudo
estar determinada por un proceso de extinción a gran escala,
a partir del cual los grupos de organismos sobrevivientes,
adaptados a un medio ambiente que les permitió sobrevir
durante la extinción, eran portadores de caracteres
genéticos comunes, los cuales pudieron ser frutos de un
proceso de evolución convergente estimulado por el
ecosistema en que se desarrollaron. A lo largo de la historia
evolutiva de las especies hay varios ejemplos de este tipo de
evolución (ver ejemplo en el sumario biológico,
capítulo 1). No obstante en nuestra investigación nos
dimos a la tarea de corroborar, en la literatura actualizada,
primero la existencia de grupos de mamíferos desde la Era
Mesozoica donde dominaban los vertebrados no mamíferos y
segundo aquellos procesos de extinción que involucraron a
estos organismos y lo que los caracterizó pudiendo
referenciar criterios científicos como:

El carácter fundamental de la Era Mesozoica, en cuanto
a lo que a Vertebrados se refiere, es el desarrollo inusitado
que durante esta época tuvieron los reptiles,
adaptándose a diversos medios ecológicos tanto
continentales (estegosauros, tyrannosaurus, triceratops), como
marinos (plesiosaurios, ictiyosaurios, mosasaurios), y
aéreos (pterosaurios), donde llegaron a desarrollar
grandes dimensiones. Se inicia entonces el desarrollo de todo
el conjunto de reptiles que llegan hasta la actualidad
(cocodrilos, quelonios, saurios, ofidios), así como el
grupo de los terápsidos, que son los precursores de los
mamíferos. La mayoría de estos grupos aparecen
entre el Pérmico y el Triásico, que son los periodos
de máxima expansión reptiliana.
Los restos más antiguos de mamíferos,
proceden del Triásico superior. En el Mesozoico los
fósiles de mamíferos son escasos, en general, grupos
especiales de organismos no placentados (marsupiales). Los
primeros registros fósiles de mamíferos placentados
corresponden con materiales de finales del Cretácico (en
Mongolia), que corresponden a organismos de pequeña talla,
tipo de los Insectívoros y con caracteres muy
primitivos.
En las superficies continentales la mayor expansión
corresponde a los mamíferos (presentes desde el
Mesozoico). Los marsupiales desarrollan numerosas formas
adaptativas en Australia y América del Sur, durante la
ausencia de predadores carnívoros placentados, ya que la
diversidad de los mamíferos placentados en general,
presenta una evolución genética mucho más
eficaz. En la actualidad más del 95% de los mamíferos
conocidos son placentarios.

Con los argumentos anteriores se corrobora la existencia de
mamíferos con características muy peculiares, por su
forma de adaptación al medio, presentes en la época
resplandeciente de los grandes reptiles. En particular, dos
carácterísticas comunes a la mayoría de estos
mamíferos es su pequeño tamaño y la presencia de
adaptaciones que les permitían vivir bajo tierra en la
salvaguarda de los grandes depredadores. Es bien conocido que
todos los animales que se adaptan a un mismo ambiente,
independientemente de la clase a la que pertenezcan desarrollan
caracteres genéticos similares que les permiten sobrevivir
en dicho medio ambiente. Por lo que se sugiere que antes de la
ocurrencia de la gran extinción masiva pudo tener lugar la
evolución convergente de muchos caracteres presentes en
mamíferos y reptiles pequeños, las cuales le
permitieron sobrevivir a la extinción. La evolución
convergente de muchos de estos caracteres debió quedar
grabada en las regularidades estadísticas encontradas en los
genes y proteínas actuales derivadas de genes y
proteínas de los mamiferos y reptiles ancestros que
sobrevivieron al proceso de extinción. Este análisis
explicaría la aparente presencia de un "ancestro común"
entre vertebrados no mamíferos y mamíferos mostrada en
la Figura 4.1.2A y la posible pérdida de información
causada durante la extinción:

· Hacia
finales del Mesozoico ocurrió una extinción masiva en
el Cretáceo terciario. Este fue el evento de extinción
que acabó con los dinosaurios (entre otros). Muchos de los
animales y plantas que sobrevivieron (tales como
mamíferos y aves) se multiplicaron después del
Cenozoico. Los mamíferos, que eran pequeños y poco
abundantes durante el Mesozoico, se hicieron más diversos.
Nuevas especies de mamíferos evolucionaron y fueron capaces
de vivir y alimentarse en áreas usadas por los dinosaurios
durante el Mesozoico, según investigadores dirigidos por
Olaf Bininda-Emonds, de la universidad Jena de
Friedrich-Schiller, en Alemania.

Otra posibilidad de analizar la pérdida de
información acerca de los ancestros de estos dos grupos de
organismos es la exclusión de uno de ellos para ver el
comportamiento del árbol. Cuando se excluye el grupo de
vertebrados que no son mamíferos se obtiene un árbol en
correspondencia con lo discutido aquí, luego se realiza
la prueba de construir un determinado número de
matrices de distancia con una selección aleatoria del
90% de la base extendida aleatorizada y con las primeras
cien pruebas se obtiene un árbol consenso del 70 %. En el
árbol filogenético mostrado en la Figura 4.1.2B se
evidencia que debió existir un ancestro común de todos
los mamíferos actuales. Esta evidencia proporciona una
respuesta estadística a una de nuestras preguntas de
investigación y corrobora lo sucedido en el proceso de
evolución y su estrecha relación con las probabilidades
de aparición de un aminoácido en una secuencia de
proteínas.

Figura 4.1.1. Árbol obtenido con base de datos
donde el grupo de invertebrados tenía un por ciento
considerable de proteínas del tipo Cytochrome (transporte)
conservadas en el proceso de evolución.

Figura 4.1.2. Árbol obtenido con base de datos
curada. A: Logrando un árbol consenso del 80%, con la
construcción de 200 matrices de la base de datos extendida.
B: Verificando el hecho que excluyendo los vertebrados no
mamíferos el comportamiento es el mismo y se obtiene un
árbol consenso del 70 % con las primeras cien matrices de la
base de datos extendida.

CONCLUSIONES Y
RECOMENDACIONES

Conclusiones

A partir de los resultados obtenidos podemos concluir que:

Los análisis realizados con los vectores NECk,
calculados a partir de las secuencias de proteínas y del
uso de codones en los genes, nos permitieron detectar
diferencias estadísticamente significativas entre los taxa
estudiados en correspondencia con la clasificación
taxonómica.
Mediante el uso de la distancia de Hellinger entre los
vectores estimados de distribución de probabilidades de
aparición de aminoácidos en las proteínas, fue
posible detectar relaciones filogenéticas entre los taxa
estudiados en concordancia con la taxonomía
evolutiva.

Recomendaciones

1. Realizar un análisis
filogenético usando los vectores NECk calculados a
partir de las bases uso de codones similar al realizado para los
vectores NECk calculados a partir de las bases de
secuencias de proteínas.

2. Investigar la
variación de las distribuciones de las frecuencias de los
aminoácidos en función del tiempo evolutivo
transcurrido

REFERENCIAS
BIBLIOGRÁFICAS

Lewin, B. Genes VIII. Pearson Prentice Hall. 2004.
Crick, F.H.C. The origin of the genetic code. J. Mol. Biol.
38, 367-379, 1968.
Knight RD, Freeland SJ, Landweber LF, 2001. Rewiting the
keyboard: evolvability of the genetic code. Nat Rev Gente,
2:49-58.
Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001)
Optimality of the genetic code with respect to protein
stability and amino acid frequencies. Genome Biology 2,
research0049.1-research0049.12, 2001.
Epstein, C. J. Role of the amino-acid "code" and of
selection for conformation in the evolution of proteins. Nature
210, 25-28, 1966
Epstein C. Non randomnes of amino-acid changes in the
evolution of homologous proteins. Nature, 215, 355-359,
1967
Freeland, S. y Hurst, L. The genetic code is one in a
million. J. Mol. Evol. 47, 238-248, 1998.
Frappat, L., Sciarrino A. y Sorba, P. "A crystal base for
the genetic code" Phys. Lett. A250, 214-221, 1998.
Woese, C.R. On the evolution of the genetic code. Proc.
Natl. Acad. Sci. USA 54, 1546-1552, 1965.
Haig, D. y Hurst, L. D. A quantitative measure of error
minimization in the genetic code. J. Mol. Evol. 33, 412-417,
1991.
Friedman, S.M. y Weinstein, I.B. Lack of fidelity in the
translation of ribopolynucleotides. Proc. Natl.
Acad. Sci. USA, 52, 988-996, 1964
Parker J. Errors and alternatives in reading the universal
genetic code. Microbiol. Rev. 53, 273-298, 1989.
Yang, Z.: Adaptive molecular evolution. In Handbook
of statistical genetics, (Balding, M., Bishop, M. &
Cannings, C., eds), Wiley:London, pp. 327-50, 2000.
Alff-Steinberger, C. The genetic code and error
transmission. Proc. Natl. Acad. Sci. USA 64, 584-591, 1969
Nakamura Y, Gojobori T, y Ikemura T. Codon usage tabulated
from international DNA sequence database: status for the year.
Nucleic Acids Research 28, pp 292, 2000.
Makrides, S.C.: Strategies for achieving high-level
expression of genes in Escherichia coli. Microbiol Rev 60,
512-38, 1996.
Duret, L., Mouchiroud, D.: Expression pattern and,
surprisingly, gen length, shape codón usage in
Caenorhabditis, Drosophila, and Arabidopsis. Proc Natl Acad Sci
96, 17-25, 1999.
Gu, W., Zhou, T., Ma, J., Sun, X., Lu, Z.: The relationship
between synonymous codon usage and protein structure in
Escherichia coli and Homo sapiens. Biosystems 73, 89-97,
2004.
Gupta, S.K., Majumdar, S., Bhattacharya, K., Ghosh, T.C.:
Studies on the relationships between synonymous codon usage and
protein secondary structure. Biochem Biophys Res Comm 269,
692-6, 2000.
Oresic. M., Shalloway, D.: Specific correlations between
relative synonymous codon usage and protein secondary
structure. J Mol. Biol. 281, 31-48, 1998.
Tao, X., Dafu, D.: The relationship between synonymous
codon usage and protein structure. FEBS Lett 434, 93-6,
1998.
Fuglsang, A.: Strong associations between gene function and
codon usage. APMIS 111, 843-7, 2003.
Sanchez, R.:"Estudio del orden en el Código
Genético mediante la aplicación de métodos
algebraico y estadístico, 2003.
Sanchez, R.:"Regularidades algebraicas del código
genético: aplicaciones a la evolución molecular".
Tesis presentada en opción al grado científico de
Doctor en Ciencias Biológicas, 2006.
Fawcett, T.: ROC Graphs: Notes and Practical Considerations
for Data Mining Researchers, Hewlett-Packard Company,
2003.
Weiss, G. M., and Provost, F.: Learning When Training Data
are Costly: The Effect of Class Distribution on Tree Induction,
JAIR 19, 315-354, 2003.
University of Waterloo, Department of Statistics and
Actuarial Science, SPSS Instruction Manual, September 1,
1998
Swanson, R. A unifying concept for the amino acid code.
Bull. Math. Biol. 46, 187-203, 1984.
Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001)
Optimality of the genetic code with respect to protein
stability and amino acid frequencies. Genome Biology 2,
research0049.1-research0049.12, 2001.
Taylor, J.D.T. y Thornton, J.M. Recompilation of the
mutation matrices. CABIOS 8, 275-282, 1991.
Kira S. Makarova, Yuri I. Wolf, Sergey L. Mekhedov, Boris
G. Mirkin1 and Eugene V. Koonin. Ancestral paralogs and
pseudoparalogs and their role in the emergence of the
eukaryotic cell. 4626-4638 Nucleic Acids Research, 2005, Vol.
33, No. 14
Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar.
Center of Evolutionary Functional Genomics, Biodesign
Institute, Arizona State University. MEGA Molecular
Evolutionary Genetics Analysis. VERSION 4, 1993 – 2008.
CHAID, W. (1994). "CHAID para SPSS sobre Windows.
Técnicas de segmentación basadas en razones de
verosimilitud Chi-cuadrado." User Manual. SPSS Inc.
PhD Mohammad Badii1, Dr. Jerónimo Landeros2, Dr.
Victoriano Garza3. Historia evolutiva de la vida, CULCyT//Enero
-Febrero, 2008, Año 5, No 24
Ana Aber, Coordinadora, Alfredo Langguth, Editor,
BIODIVERSIDAD Y TAXONOMÍA PRESENTE Y FUTURO. Resultados
del Taller realizado en la Facultad de Ciencias, Universidad de
la República. 14 – 18 de junio de 2004

ANEXOS

Anexos 1. Árbol Filogenético Universal.

Anexo 2. Fragmento de base de datos de cadenas de
proteínas.

>gi|127069|sp|P16455|MGMT_HUMAN
Methylated-DNA–protein-cysteine methyltransferase
(6-O-methylguanine-DNA methyltransferase) (MGMT)
(O-6-methylguanine-DNA-alkyltransferase)

MDKDCEMKRTTLDSPLGKLELSGCEQGLHEIKLLGKGTSAADAVEVPAPAAVLGGPEPLMQCTAWLNAYF

HQPEAIEEFPVPALHHPVFQQESFTRQVLWKLLKVVKFGEVISYQQLAALAGNPKAARAVGGAMRGNPVP

ILIPCHRVVCSSGAVGNYSGGLAVKEWLLAHEGHRLGKPGLGGSSGLAGAWLKGAGATSGSPPAGRN

>gi|74720969|sp|Q9UJV8|PURG_HUMAN Purine-rich
element-binding protein gamma

MERARRRGGGGGRGRGGKNVGGSGLSKSRLYPQAQHSHYPHYAASATPNQAGGAAEIQELASKRVDIQKK

RFYLDVKQSSRGRFLKIAEVWIGRGRQDNIRKSKLTLSLSVAAELKDCLGDFIEHYAHLGLKGHRQEHGH

SKEQGSRRRQKHSAPSPPVSVGSEEHPHSVLKTDYIERDNRKYYLDLKENQRGRFLRIRQTMMRGTGMIG

YFGHSLGQEQTIVLPAQGMIEFRDALVQLIEDYGEGDIEERRGGDDDPLELPEGTSFRVDNKRFYFDVGS

NKYGIFLKVSEVRPPYRNTITVPFKAWTRFGENFIKYEEEMRKICNSHKEKRMDGRKASGEEQECLD

>gi|1346918|sp|Q00577|PURA_HUMAN Transcriptional activator
protein Pur-alpha (Purine-rich single-stranded DNA-binding
protein alpha)

MADRDSGSEQGGAALGSGGSLGHPGSGSGSGGGGGGGGGGGGSGGGGGGAPGGLQHETQELASKRVDIQN

KRFYLDVKQNAKGRFLKIAEVGAGGNKSRLTLSMSVAVEFRDYLGDFIEHYAQLGPSQPPDLAQAQDEPR

RALKSEFLVRENRKYYMDLKENQRGRFLRIRQTVNRGPGLGSTQGQTIALPAQGLIEFRDALAKLIDDYG

VEEEPAELPEGTSLTVDNKRFFFDVGSNKYGVFMRVSEVKPTYRNSITVPYKVWAKFGHTFCKYSEEMKK

IQEKQREKRAACEQLHQQQQQQQEETAAATLLLQGEEEGEED

>gi|13629600|sp|Q9Y2U8|MAN1_HUMAN Inner nuclear membrane
protein Man1 (LEM domain-containing protein 3)mamifero

MAAAAASAPQQLSDEELFSQLRRYGLSPGPVTESTRPVYLKKLKKLREEEQQQHRSGGRGNKTRNSNNNN

TAAATVAAAGPAAAAAAGMGVRPVSGDLSYLRTPGGLCRISASGPESLLGGPGGASAAPAAGSKVLLGFS

SDESDVEASPRDQAGGGGRKDRASLQYRGLKAPPAPLAASEVTNSNSAERRKPHSWWGARRPAGPELQTP

PGKDGAVEDEEGEGEDGEERDPETEEPLWASRTVNGSRLVPYSCRENYSDSEEEDDDDVASSRQVLKDDS

LSRHRPRRTHSKPLPPLTAKSAGGRLETSVQGGGGLAMNDRAAAAGSLDRSRNLEEAAAAEQGGGCDQVD

SSPVPRYRVNAKKLTPLLPPPLTDMDSTLDSSTGSLLKTNNHIGGGAFSVDSPRIYSNSLPPSAAVAASS

SLRINHANHTGSNHTYLKNTYNKPKLSEPEEELLQQFKREEVSPTGSFSAHYLSMFLLTAACLFFLILGL

TYLGMRGTGVSEDGELSIENPFGETFGKIQESEKTLMMNTLYKLHDRLAQLAGDHECGSSSQRTLSVQEA

AAYLKDLGPEYEGIFNTSLQWILENGKDVGIRCVGFGPEEELTNITDVQFLQSTRPLMSFWCRFRRAFVT

VTHRLLLLCLGVVMVCVVLRYMKYRWTKEEEETRQMYDMVVKIIDVLRSHNEACQENKDLQPYMPIPHVR

DSLIQPHDRKKMKKVWDRAVDFLAANESRVRTETRRIGGADFLVWRWIQPSASCDKILVIPSKVWQGQAF

HLDRRNSPPNSLTPCLKIRNMFDPVMEIGDQWHLAIQEAILEKCSDNDGIVHIAVDKNSREGCVYVKCLS

PEYAGKAFKALHGSWFDGKLVTVKYLRLDRYHHRFPQALTSNTPLKPSNKHMNSMSHLRLRTGLTNSQGS

>gi|8475983|sp|O75916|RGS9_HUMAN Regulator of G-protein
signaling 9 (RGS9)

MTIRHQGQQYRPRMAFLQKIEALVKDMQNPETGVRMQNQRVLVTSVPHAMTGSDVLQWIVQRLWISSLEA

QNLGNFIVRYGYIYPLQDPKNLILKPDGSLYRFQTPYFWPTQQWPAEDTDYAIYLAKRNIKKKGILEEYE

KENYNFLNQKMNYKWDFVIMQAKEQYRAGKERNKADRYALDCQEKAYWLVHRCPPGMDNVLDYGLDRVTN

PNEVKVNQKQTVVAVKKEIMYYQQALMRSTVKSSVSLGGIVKYSEQFSSNDAIMSGCLPSNPWITDDTQF

WDLNAKLVEIPTKMRVERWAFNFSELIRDPKGRQSFQYFLKKEFSGENLGFWEACEDLKYGDQSKVKEKA

EEIYKLFLAPGARRWINIDGKTMDITVKGLKHPHRYVLDAAQTHIYMLMKKDSYARYLKSPIYKDMLAKA

IEPQETTKKSSTLPFMRRHLRSSPSPVILRQLEEEAKAREAANTVDITQPGQHMAPSPHLTVYTGTCMPP

SPSSPFSSSCRSPRKPFASPSRFIRRPSTTICPSPIRVALESSSGLEQKGECSGSMAPRGPSVTESSEAS

LDTSWPRSRPRAPPKARMALSFSRFLRRGCLASPVFARLSPKCPAVSHGRVQPLGDVGQQLPRLKSKRVA

NFFQIKMDVPTGSGTCLMDSEDAGTGESGDRATEKEVICPWESL

Anexo 3. Fragmento de base de datos de uso de
codones.

>AB000095AB000095176..17171542BAA25014.1Homo,
sapiensHomo, sapiens, mRNA, for, hepatocyte, growth, factor,
activator, inhibitor,complete,
cds./codon_start=1/product="hepatocyte, growth, factor,
activator,
inhibitor"/protein_id="BAA25014.1"/db_xref="GI:2924601"

0, 16, 8, 0, 1, 7, 3, 12, 19, 2, 0, 5, 1, 9, 1, 5, 8, 4, 6,
18, 8, 4, 8, 20, 3, 5, 3, 23, 5, 3, 7, 20, 7, 6, 3, 9, 22, 1, 3,
15, 22, 1, 2, 18, 10, 2, 13, 19, 23, 4, 12, 5, 25, 6, 17, 6, 1,
13, 3, 4, 7, 0, 0, 1

>AB000099AB000099106..462357BAA25877.1Homo,
sapiensHomo, sapiens, mRNA, for, DCRB,, complete,
cds./codon_start=1/product="DCRB"/protein_id="BAA25877.1"/db_xref="GI:3090432"

0, 0, 1, 0, 4, 1, 0, 3, 4, 3, 1, 2, 4, 2, 1, 4, 4, 2, 1, 3, 2,
1, 4, 2, 1, 5, 3, 3, 0, 3, 1, 0, 3, 0, 0, 1, 0, 1, 5, 2, 1, 0, 2,
2, 3, 1, 3, 1, 2, 6, 2, 0, 2, 1, 1, 2, 3, 4, 2, 1, 2, 0, 0, 1

>AB000114AB000114101..13661266BAA19055.1Homo,
sapiensHomo, sapiens, mRNA, for, osteomodulin,, complete,
cds./codon_start=1/product="osteomodulin"/protein_id="BAA19055.1"/db_xref="GI:1769800"

1, 1, 0, 2, 5, 1, 13, 8, 4, 15, 6, 4, 8, 1, 0, 8, 4, 5, 6, 1,
0, 9, 15, 2, 1, 9, 4, 1, 0, 4, 5, 1, 2, 6, 4, 2, 4, 4, 18, 6, 9,
24, 17, 6, 9, 12, 26, 4, 10, 16, 10, 15, 4, 5, 12, 13, 6, 6, 14,
12, 1, 0, 1, 0

>AB000115AB000115242..14831242BAA19056.1Homo,
sapiensHomo, sapiens, mRNA, expressed, in, osteoblast,,
complete,
cds./codon_start=1/protein_id="BAA19056.1"/db_xref="GI:1769802"

2, 0, 3, 6, 8, 7, 7, 4, 7, 7, 10, 10, 4, 4, 1, 14, 3, 4, 5, 5,
1, 9, 7, 4, 0, 3, 10, 4, 1, 4, 9, 4, 4, 4, 3, 4, 8, 9, 17, 8, 6,
15, 6, 5, 5, 4, 13, 8, 14, 18, 3, 12, 4, 8, 2, 11, 9, 5, 23, 17,
1, 0, 0, 1

>AB000220AB000220563..28182256BAA32398.1Homo,
sapiensHomo, sapiens, mRNA, for, semaphorin, E,, complete,
cds./codon_start=1/product="semaphorin,
E"/protein_id="BAA32398.1"/db_xref="GI:3426163"

7, 5, 8, 3, 13, 13, 3, 5, 17, 7, 12, 7, 10, 13, 1, 17, 8, 11,
19, 9, 3, 19, 11, 7, 4, 12, 9, 9, 3, 16, 18, 10, 11, 5, 6, 10,
22, 16, 27, 19, 18, 22, 12, 20, 11, 13, 23, 11, 17, 26, 12, 14,
11, 12, 20, 16, 10, 12, 21, 17, 8, 1, 0, 0

>AB000221AB00022164..333270BAA21670.1Homo,
sapiensHomo, sapiens, mRNA, for, CC, chemokine,, complete,
cds./gene="PARC"/codon_start=1/product="CC,
chemokine"/protein_id="BAA21670.1"/db_xref="GI:2289719"

0, 0, 1, 0, 1, 0, 1, 6, 2, 2, 0, 0, 0, 2, 0, 1, 2, 0, 0, 5, 0,
0, 2, 3, 0, 0, 2, 3, 0, 2, 0, 2, 0, 2, 0, 5, 0, 2, 2, 7, 1, 2, 2,
4, 0, 0, 1, 1, 3, 0, 1, 2, 5, 2, 1, 0, 1, 3, 1, 2, 2, 0, 0, 1

Anexo 4. Secciones B y C del árbol de aminoácidos
asociados con las clasificaciones taxonómicas de organismos
vivos

Anexo 5. Secciones A y B árbol y regla de
clasificación de aminoácidos asociados con los
resultados en la base de datos curada con validación cruzada
en las clasificaciones taxonómicas de archaea, bacterias y
eucariotes.

Regla de Clasificación

/* Node 13 */

IF (Histidina NOT MISSING AND (Histidina
<= 1.12076082557669)) AND (Isoleucina NOT MISSING
AND (Isoleucina <= 3.6787991498406)) AND
(Ácido Glutámico NOT MISSING AND
(Ácido Glutámico <= 4.86217846935535))

THEN

Node = 13

Prediction = 2

Probability = 0.571429

/* Node 14 */

IF (Histidina NOT MISSING AND (Histidina
<= 1.12076082557669)) AND (Isoleucina NOT
MISSING AND (Isoleucina <= 3.6787991498406))
AND (Ácido Glutámico IS MISSING OR
(Ácido Glutámico > 4.86217846935535))

THEN

Node = 14

Prediction = 1

Probability = 1.000000

/* Node 15 */

IF (Histidina NOT MISSING AND (Histidina
<= 1.12076082557669)) AND (Isoleucina IS
MISSING OR (Isoleucina > 3.6787991498406 AND
Isoleucina <= 4.65842040565458)) AND (Valina NOT
MISSING AND (Valina <=
4.80227023068473))

THEN

Node = 15

Prediction = 2

Probability = 0.636364

/* Node 16 */

THEN

Node = 16

Prediction = 2

Probability = 1.000000

/* Node 7 */

IF (Histidina NOT MISSING AND (Histidina
<= 1.12076082557669)) AND (Isoleucina NOT
MISSING AND (Isoleucina >
4.65842040565458))

THEN

Node = 7

Prediction = 1

Probability = 1.000000

/* Node 8 */

IF (Histidina NOT MISSING AND (Histidina
> 1.12076082557669 AND Histidina <=
1.39913310456926)) AND (Ácido Glutámico NOT
MISSING AND (Ácido Glutámico <=
3.66998451669985))

THEN

Node = 8

Prediction = 3

Probability = 1.000000

/* Node 17 */

IF (Histidina NOT MISSING AND (Histidina
> 1.12076082557669 AND Histidina <=
1.39913310456926)) AND (Ácido Glutámico IS
MISSING OR (Ácido Glutámico >
3.66998451669985 AND Ácido Glutámico <=
4.86217846935535)) AND (Serina IS MISSING OR
(Serina <= 4.18460680423871))

THEN

Node = 17

Prediction = 2

Probability = 0.941176

/* Node 18 */

THEN

Node = 18

Prediction = 3

Probability = 1.000000

/* Node 10 */

IF (Histidina NOT MISSING AND (Histidina
> 1.12076082557669 AND Histidina <=
1.39913310456926)) AND (Ácido Glutámico NOT
MISSING AND (Ácido Glutámico >
4.86217846935535))

THEN

Node = 10

Prediction = 1

Probability = 0.966667

/* Node 11 */

IF (Histidina NOT MISSING AND (Histidina
> 1.39913310456926 AND Histidina <=
1.51311126860383)) AND (Serina NOT
MISSING AND (Serina <= 3.6231101511879))

THEN

Node = 11

Prediction = 1

Probability = 0.857143

/* Node 12 */

IF (Histidina NOT MISSING AND (Histidina
> 1.39913310456926 AND Histidina <=
1.51311126860383)) AND (Serina IS MISSING OR
(Serina > 3.6231101511879))

THEN

Node = 12

Prediction = 3

Probability = 1.000000

/* Node 4 */

IF (Histidina IS MISSING OR (Histidina >
1.51311126860383))

THEN

Node = 4

Prediction = 3

Probability = 1.000000

Anexo 6. Matriz de correlaciones entre los
aminoácidos en los Taxa archaeas, bacterias y
eucariotes.

Anexo 7. Implementación en el Matemática de los
calculos necesaris para la partición de las bases de datos
en subgrupos y la obtención de los vectores
NECk.

Anexo 8. Implementación en el Matemática para la
selección aleatoria de las matrices de distancia

Agradecimientos

A mi tutor Robersy Sánchez por su apoyo en
todo momento

A mis padres y hermanas

Al Grupo de Bioinformática

Al Departamento de Matemática

A todos los que me han ayudado

Agradecimiento especial

A mi hija María Fernanda y a mi esposo por ser fuentes
inspiradoras en cada paso por el camino de la vida

Autora:

María Milena Rodríguez Fernández

Autores:

Msc. María Milena Rodríguez Fernández

Dr. Robersy Sánchez Rodríguez

País: Cuba.

Institución: UNIVERSIDAD CENTRAL "MARTA ABREU" DE
LAS VILLAS. FACULTAD DE MATEMÁTICA, FÍSICA Y
COMPUTACIÓN

[1] Aunque no es indispensable para la
comprensión de texto, si el lector está interesado,
el nombre del aminoácido correspondiente a cada
símbolo lo puede encontrar en la sección 2.2.

Partes: 1, 2, 3, 4, 5, 6, 7, 8

Página anterior

Volver al principio del trabajo

Página siguiente

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 8)

ANÁLISIS FILOGENéTICOS.

CONCLUSIONES Y RECOMENDACIONES

REFERENCIAS BIBLIOGRÁFICAS

ANEXOS

ANÁLISIS
FILOGENéTICOS.

CONCLUSIONES Y
RECOMENDACIONES

REFERENCIAS
BIBLIOGRÁFICAS