Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 8)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

 

 

Mamiferos

94.6

90.3

90.9

92.5

94.6

Validación externa

Vert No Mamif

96.4

96.2

96.4

96.3

96.4

 

 

Mamiferos

96.2

96.4

96.2

96.3

96.2

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

70 % base de datos extendida

 

Vert No Mamif

93.1

93.2

93.1

93.2

93.1

 

 

Mamiferos

93.2

93.1

93.2

93.2

93.2

Validación  cruzada

Vert No Mamif

88.9

90.5

90.1

89.7

88.9

 

 

Mamiferos

90.5

88.9

89.3

89.7

90.5

Validación externa

Vert No Mamif

96.4

100.0

100.0

98.1

96.4

 

 

Mamiferos

100.0

96.4

96.3

98.1

100.0

Predicciones de los miembros del Grupo con
CHAID

 

 

 

 

70 % base de datos extendida

 

Vert No Mamif

91.7

93.2

93.0

92.5

91.7

 

 

Mamiferos

93.2

91.7

92.0

92.5

93.2

Validación externa

Vert No Mamif

78.6

84.6

84.6

81.5

78.6

 

 

Mamiferos

84.6

78.6

78.6

81.5

84.6

1.8.6.  Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas  en
primates y homo sapiens.

Teniendo en cuenta las peculiaridades de estas dos especies
por su cercania en el árbol filogenético universal,
explicadas el la sección dedicada a esta misma taxa pero
para el estudio de las secuencias de aminoácidos, los
resultados obtenidos con la aplicación del método
CHAID, son esperados desde el punto de vista biológico, pues
existe una aceptada correlación entre todos los
aminoácidos. Solamente tres de ellos no alcanzan valores
significativos, la Serina, la Leucina y Cisteína, mientras
la mayoria muestra indices de clasificación por encima de
90%, como muestra la Tabla 3.3.6.1. Cuando se realiza una
validación al 70% de la base curada, Tabla 3.3.6.2, se
observa que los porcientos de clasificación son inferiores a
los obtenidos anteriormente, sin embargo es de esperar que con
una base externa con este método usando la probabilidad en
el uso de codones se diferencien bien las especies involucradas
en esta taxa, lo cual contribuye a la verificación de una de
nuestras hipótesis de investigación. 

Tabla 3.3.6.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.024266804

93

Metionina

0.016568011

94

Histidina

0.015554361

92

Valina

0.003344738

89

Glutamina

0.002464145

88

Asparagina

0.002171647

85

Alanina

0.000387709

85

Lisina

0.000319111

91

Fenilalanina

0.000218361

86

Arginina

8.5694E-05

91

Prolina

2.31555E-05

91

Isoleucina

2.87011E-06

91

Triptófano

1.68E-06

89

Tirosina

8.32568E-07

92

Ácido Aspártico

2.73194E-07

94

Ácido Glutámico

5.53884E-08

93

Treonina

1.04E-08

92

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.6.2. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

Figura 3.3.6.1 Arbol de Aminoácidos asociados con
los resultados de una validación cruzada en la base curada
con las clasificaciones taxonómica de primates y homo
sapiens.

1.8.6.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis Discriminante realizado en esta taxa en
cuanto al uso de codones se ratifica los resultados con el
método CHAID, pues lo porcientos de clasificación
mejoran considerablemente. Podemos observar en la Tabla 3.3.6.1.1
que las funciones discriminantes canónicas obtenidas con la
introducción de todos los aminoácidos que satisfacen el
test de tolerancia, solo la Tirosina no aparece mientras que con
el método Stepwise aparecen solamente el ácido
Aspártico, la Treonina y la Tirosina.

En la Tabla 3.3.6.1.2 se puede apreciar que la eficacia de las
funciones discriminantes en la separación de los casos en
grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares, indicando el buen desempeño de
las funciones discriminantes.  

Con las curvas ROC se ilustra Figura 3.3.6.1.1 que el
análisis Discriminante supera al CHAID, las difencias en los
valores de las áreas bajo la curva Tabla 3.3.6.1.3,
ratifican el hecho de que aunque las diferencias no son altamente
significativas, el Intervalo de confianza asintótico para el
95% del CHAID queda completamente incluído en los intervalos
de los métodos de Discriminante, mostrando su superioridad a
la hora de la clasificación de estos organismos.

Al utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, también nos sugieren que existen algunas
diferencias entre ellos, en la Tabla 3.3.6.1.4 se muestran los
valores de los parámetros mencionados.

Tabla 3.3.6.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

3.2271755

Cisteína

2.3901049

Ácido Aspártico

4.3812572

-2.830154

Ácido Glutámico

2.9292366

Fenilalanina

2.6504594

Glicina

2.0562512

Histidina

1.6416941

Isoleucina

2.9344641

Lisina

1.2136819

Leucina

2.4635822

Metionina

0.9738945

Asparagina

2.571989

Prolina

2.4680417

Glutamina

1.4374376

Arginina

2.3757739

Serina

1.889281

Treonina

-1.243473

3.2178151

Valina

0.7428819

Tirosina

2.2715964

Triptófano

1.4286537

(Constant)

-122.672

-7.493221

Tabla 3.3.6.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

2.827

100

100

0.859

1

0.261

97.297

3

0.000

Todas las variables

1

4.062

100

100

0.896

1

0.198

104.601

19

0.000

Tabla 3.3.6.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Homo Sapiens
(Análisis Disc. Stepwise)

0.999

0.002

0.000

0.996

1.000

Probabilidad Homo Sapiens
(Análisis CHAID)

0.932

0.027

0.000

0.879

0.984

Probabilidad Homo Sapiens
(Análisis Discriminante)

0.999

0.002

0.000

0.996

1.000

Figura 3.3.6.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.6.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Primates

94.9

100.0

100.0

97.4

94.9

 

 

HomoS

100.0

94.9

94.9

97.4

100.0

Validación  cruzada

Primates

87.2

100.0

100.0

93.4

87.2

 

 

HomoS

100.0

87.2

88.1

93.4

100.0

Validación externa

Primates

90.9

100.0

100.0

95.8

90.9

 

 

HomoS

100.0

90.9

92.9

95.8

100.0

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

70 % base de datos extendida

Primates

97.4

97.3

97.4

97.4

97.4

 

 

HomoS

97.3

97.4

97.3

97.4

97.3

Validación  cruzada

Primates

84.6

94.6

94.3

89.5

84.6

 

 

HomoS

94.6

84.6

85.4

89.5

94.6

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con
CHAID

 

 

 

70 % base de datos extendida

Primates

92.3

89.2

90.0

90.8

92.3

 

 

HomoS

89.2

92.3

91.7

90.8

89.2

Validación externa

Primates

63.6

84.6

77.8

75.0

63.6

 

 

HomoS

84.6

63.6

73.3

75.0

84.6

ANÁLISIS
FILOGENéTICOS.

La reconstrucción de la historia evolutiva de genes y
especies es actualmente uno de los asuntos más importantes
en la evolución molecular. En la medida en que los
análisis filogenéticos realizados sean  fiables,
ellos verterán la luz en la sucesión de eventos
evolutivos que han generado la diversidad de hoy día de las
especies y nos ayuda a entender los mecanismos de evolución
así como la historia de organismos.   

1.9.        
ANÁLISIS FILOGENéTICOS EN LA BASE DE PROTEINAS.

La filogenia es la ciencia de estimar el pasado, en particular
la filogenia molecular basada en comparación de secuencias
de proteínas o de DNA. Un árbol filogenético es un
árbol que muestra las relaciones de evolución entre
varias especies u otras entidades que se cree que tuvieron una
descendencia común, además se consideran una estructura
matemática que se usa para modelar la historia evolutiva de
un grupo de secuencias o de organismos. Usa 
información proveniente de fósiles así como
aquélla generada por la comparación estructural y
molecular. En nuestro trababjo se comparan secuecias de
organismos actuales de una base datos curados con la
verificación en una base extendida descritas ambas en el
Capitulo 2.

Los árboles filogenéticos se construyen tomando en
cuenta la teoría de la evolución, que nos indica que
todos los organismos son descendientes de un ancestro común:
la protocélula ver anexo 1. Así, todos los organismos,
ya sean vivos o extintos, se encuentran emparentados en
algún grado.

Para la obtención de los árboles se utilizó el
MEGA 4. En la sección 1.2.2 se explica lo relacionado con
las posibilidades que este software brinda y las herramientas que
fueron utilizadas en el trabajo con el mismo. En particular, el
uso de este software nos permitió seleccionar una
función de distancia apropiada entre los vectores NECk que
nos permitiera obtener árboles plausibles desde el punto de
vista evolutivo, los cuales no se encontraran en abierta
contradicción con las observaciones y evidencias
biológicas.

El uso del MEGA permitió verificar que si las bases de
datos correspondientes a cada grupo taxonómico se
sobrecargan con secuencias de proteínas vinculadas a
procesos biológicos esenciales para todas las células
vivas entonces, al construir el árbol filogenético se
obtienen ramas ubicadas de forma errónea en el árbol.
Un ejemplo concreto se obtiene al sobrecargar la base de
invertebrados con proteínas involucradas en las cadenas de
transporte de electrones, un proceso esencial para todas las
células vivas. En particular, la familia de los citocromos,
vinculadas con estos procesos, se caracteriza por poseer dominios
estructurales en sus secuencias de aminoácidos conservadas,
en la mayoría de los taxa, desde los procariotes hasta el
homo sapiens. Este hecho provoca que gran parte de la
información estadística reflejada en los vectores
NECk sea común para mayoría de los
taxa. Como consecuencia se obtiene el efecto que se observa en el
árbol de la Figura 4.1.1, en el cual los invertebrados (sin
incluir los insectos) se ubican en una rama próxima a los
primates, cuando, desde un punto de vista evolutivo, deben
ubicarse en una rama contígua al ancestro de los
vertebrados. Sin embargo, los insectos (invertebrados no
incluidos en el taxa que lleva este nombre) respecto a los
vertebrados se ubican en una rama con mayor sentido evolutivo. La
causa de este resultado se explica debido a que la base de
insectos posee un mejor balance en cuanto a la variabilidad de
los tipos de proteínas. Debemos mencionar que estos efectos
tienen lugar debido a la naturaleza estadística de la
información utilizada, pues para construir los árboles
las matríces de distancias no se calculan directamente de
las secuencias de proteínas alineadas, como en el
análisis filogenético clásico, sino que se estiman
a partir de vectores que expresan regularidades estadísticas
presentes en las secuencias no alineadas.

Finalmente, la construcción de las bases de datos
teniendo en cuenta las restricciones biológicas descritas en
el capítulo 2, permitió construir un árbol
filogenético que muestra resultados importantes desde el
punto de vista evolutivo en el reino animal [34] (Figuras 4.1.2 y
4.1.3).

Comúnmente cada árbol construido se valida en alguna
medida utilzando un procedimiento bootstrap. En particular,
cuando se parte de secuencias de proteínas alineadas y se
utilizan las funciones de distancia que tiene por defecto el
MEGA4, este software tiene la opción de construir 500
árboles y llegar a un árbol consenso que alcance el
70%. Tal procedimiento no es aplicable a nuestro caso. Luego,
para obtener un árbol consenso se realizaron muestreos
aleatorios de las bases de datos y a partir de cada submuestra
generada se calcularon las matrices de distancia ver Anexo 9.
Tomando una selección aleatoria del 90% de la base se
construyen las primeras 100 matrices obteniéndose un
árbol consenso que representa el 72%. Al construir 100
más se obtiene un árbol consenso que representa el 80%
de los doscientos posibles árboles. Lo anterior corrobora la
información que brinda el árbol obtenido de nuestra
base de datos, dando respuesta asi a nuestra segunda interrogante
de investigación.

Este resultado, además de estar en correspondencia con el
árbol filogenético evolutivamente esperado, presenta la
peculiaridad que dos grupos de organismos, los vertebrados no
mamiferos y los mamiferos están enraizados en el mismo nodo
lo que sugiere una pérdida de información acerca de los
ancestros de estos taxa, en algún momento del proceso
evolutivo. La causa de esta pérdida de información pudo
estar determinada por un proceso de extinción a gran escala,
a partir del cual los grupos de organismos sobrevivientes,
adaptados a un medio ambiente que les permitió sobrevir
durante la extinción, eran portadores de caracteres
genéticos comunes, los cuales pudieron ser frutos de un
proceso de evolución convergente estimulado por el
ecosistema en que se desarrollaron. A lo largo de la historia
evolutiva de las especies hay varios ejemplos de este tipo de
evolución (ver ejemplo en el sumario biológico,
capítulo 1). No obstante en nuestra investigación nos
dimos a la tarea de corroborar, en la literatura actualizada,
primero la existencia de grupos de mamíferos desde la Era
Mesozoica donde dominaban los vertebrados no mamíferos y
segundo aquellos procesos de extinción que involucraron a
estos organismos y lo que los caracterizó pudiendo
referenciar criterios científicos como:

  • El carácter fundamental de la Era Mesozoica, en cuanto
    a lo que a Vertebrados se refiere, es el desarrollo inusitado
    que durante esta época tuvieron los reptiles,
    adaptándose a diversos medios ecológicos tanto
    continentales (estegosauros, tyrannosaurus, triceratops), como
    marinos (plesiosaurios, ictiyosaurios, mosasaurios), y
    aéreos (pterosaurios), donde llegaron a desarrollar
    grandes dimensiones. Se inicia entonces el desarrollo de todo
    el conjunto de reptiles que llegan hasta la actualidad
    (cocodrilos, quelonios, saurios, ofidios), así como el
    grupo de los terápsidos, que son los precursores de los
    mamíferos
    . La mayoría de estos grupos aparecen
    entre el Pérmico y el Triásico, que son los periodos
    de máxima expansión reptiliana.
  • Los restos más antiguos de mamíferos,
    proceden del Triásico superior. En el Mesozoico los
    fósiles de mamíferos son escasos, en general, grupos
    especiales de organismos no placentados (marsupiales). Los
    primeros registros fósiles de mamíferos placentados
    corresponden con materiales de finales del Cretácico (en
    Mongolia), que corresponden a organismos de pequeña talla,
    tipo de los Insectívoros y con caracteres muy
    primitivos.
  • En las superficies continentales la mayor expansión
    corresponde a los mamíferos (presentes desde el
    Mesozoico). Los marsupiales desarrollan numerosas formas
    adaptativas en Australia y América del Sur, durante la
    ausencia de predadores carnívoros placentados, ya que la
    diversidad de los mamíferos placentados en general,
    presenta una evolución genética mucho más
    eficaz. En la actualidad más del 95% de los mamíferos
    conocidos son placentarios.

Con los argumentos anteriores se corrobora la existencia de
mamíferos con características muy peculiares, por su
forma de adaptación al medio, presentes en la época
resplandeciente de los grandes reptiles. En particular, dos
carácterísticas comunes a la mayoría de estos
mamíferos es su pequeño tamaño y la presencia de
adaptaciones que les permitían vivir bajo tierra en la
salvaguarda de los grandes depredadores. Es bien conocido que
todos los animales que se adaptan a un mismo ambiente,
independientemente de la clase a la que pertenezcan desarrollan
caracteres genéticos similares que les permiten sobrevivir
en dicho medio ambiente. Por lo que se sugiere que antes de la
ocurrencia de la gran extinción masiva pudo tener lugar la
evolución convergente de muchos caracteres presentes en
mamíferos y reptiles pequeños, las cuales le
permitieron sobrevivir a la extinción. La evolución
convergente de muchos de estos caracteres debió quedar
grabada en las regularidades estadísticas encontradas en los
genes y proteínas actuales derivadas de genes y
proteínas de los mamiferos y reptiles ancestros que
sobrevivieron al proceso de extinción. Este análisis
explicaría la aparente presencia de un "ancestro común"
entre vertebrados no mamíferos y mamíferos mostrada en
la Figura 4.1.2A y la posible pérdida de información
causada durante la extinción:

·         Hacia
finales del Mesozoico ocurrió una extinción masiva en
el Cretáceo terciario. Este fue el evento de extinción
que acabó con los dinosaurios (entre otros). Muchos de los
animales y plantas que sobrevivieron (tales como
mamíferos y aves) se multiplicaron después del
Cenozoico. Los mamíferos, que eran pequeños y poco
abundantes durante el Mesozoico, se hicieron más diversos.
Nuevas especies de mamíferos evolucionaron y fueron capaces
de vivir y alimentarse en áreas usadas por los dinosaurios
durante el Mesozoico, según investigadores dirigidos por
Olaf Bininda-Emonds, de la universidad Jena de
Friedrich-Schiller, en Alemania.

 Otra posibilidad de analizar la pérdida de
información acerca de los ancestros de estos dos grupos de
organismos es la exclusión de uno de ellos para ver el
comportamiento del árbol. Cuando se excluye el grupo de
vertebrados que no son mamíferos se obtiene un árbol en
correspondencia con lo discutido aquí, luego se realiza
la  prueba  de construir un determinado número de
matrices de distancia con una selección  aleatoria del
90% de la base extendida aleatorizada  y con las primeras
cien pruebas se obtiene un árbol consenso del 70 %. En el
árbol filogenético mostrado en la Figura 4.1.2B se
evidencia que debió existir un ancestro común de todos
los mamíferos actuales. Esta evidencia proporciona una
respuesta estadística a una de nuestras preguntas de
investigación y corrobora lo sucedido en el proceso de
evolución y su estrecha relación con las probabilidades
de aparición de un aminoácido en una secuencia de
proteínas.

Figura 4.1.1. Árbol obtenido con base de datos
donde el grupo de invertebrados tenía un por ciento
considerable de proteínas del tipo Cytochrome (transporte)
conservadas en el proceso de evolución.

Figura 4.1.2. Árbol obtenido con base de datos
curada. A: Logrando un árbol consenso del 80%, con la
construcción de 200 matrices de la base de datos extendida.
B: Verificando el hecho que excluyendo los vertebrados no
mamíferos el comportamiento es el mismo y se obtiene un
árbol consenso del 70 % con las primeras cien matrices de la
base de datos extendida.

CONCLUSIONES Y
RECOMENDACIONES

Conclusiones

A partir de los resultados obtenidos podemos concluir que:

  • Los análisis realizados con los vectores NECk,
    calculados a partir de las secuencias de proteínas y del
    uso de codones en los genes, nos permitieron detectar
    diferencias estadísticamente significativas entre los taxa
    estudiados en correspondencia con la clasificación
    taxonómica.
  • Mediante el uso de la distancia de Hellinger entre los
    vectores estimados de distribución de probabilidades de
    aparición de aminoácidos en las proteínas, fue
    posible detectar relaciones filogenéticas entre los taxa
    estudiados en concordancia con la taxonomía
    evolutiva.

Recomendaciones

1.     Realizar un análisis
filogenético usando los vectores NECk calculados a
partir de las bases uso de codones similar al realizado para los
vectores NECk calculados a partir de las bases de
secuencias de proteínas.

2.     Investigar la
variación de las distribuciones de las frecuencias de los
aminoácidos en función del tiempo evolutivo
transcurrido

REFERENCIAS
BIBLIOGRÁFICAS

  1. Lewin, B. Genes VIII. Pearson Prentice Hall. 2004.
  2. Crick, F.H.C. The origin of the genetic code. J. Mol. Biol.
    38, 367-379, 1968.
  3. Knight RD, Freeland SJ, Landweber LF, 2001. Rewiting the
    keyboard: evolvability of the genetic code. Nat Rev Gente,
    2:49-58.
  4. Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001)
    Optimality of the genetic code with respect to protein
    stability and amino acid frequencies. Genome Biology 2,
    research0049.1-research0049.12, 2001.
  5. Epstein, C. J. Role of the amino-acid "code" and of
    selection for conformation in the evolution of proteins. Nature
    210, 25-28, 1966
  6. Epstein C. Non randomnes of amino-acid changes in the
    evolution of homologous proteins. Nature, 215, 355-359,
    1967
  7. Freeland, S. y Hurst, L. The genetic code is one in a
    million. J. Mol. Evol. 47, 238-248, 1998.
  8. Frappat, L., Sciarrino A. y Sorba, P. "A crystal base for
    the genetic code" Phys. Lett. A250,  214-221, 1998.
  9. Woese, C.R. On the evolution of the genetic code. Proc.
    Natl. Acad. Sci. USA 54, 1546-1552, 1965.
  10. Haig, D. y Hurst, L. D. A quantitative measure of error
    minimization in the genetic code. J. Mol. Evol. 33, 412-417,
    1991.
  11. Friedman, S.M. y Weinstein, I.B. Lack of fidelity in the
    translation of   ribopolynucleotides. Proc. Natl.
    Acad. Sci. USA, 52, 988-996, 1964
  12. Parker J. Errors and alternatives in reading the universal
    genetic code. Microbiol. Rev. 53, 273-298, 1989.
  13. Yang, Z.: Adaptive molecular evolution.  In Handbook
    of statistical genetics, (Balding, M., Bishop, M. &
    Cannings, C., eds), Wiley:London, pp. 327-50, 2000.
  14. Alff-Steinberger, C. The genetic code and error
    transmission. Proc. Natl. Acad. Sci. USA 64, 584-591, 1969
  15. Nakamura Y, Gojobori T, y Ikemura T. Codon usage tabulated
    from international DNA sequence database: status for the year.
    Nucleic Acids Research 28, pp 292, 2000.
  16. Makrides, S.C.: Strategies for achieving high-level
    expression of genes in Escherichia coli. Microbiol Rev 60,
    512-38, 1996.
  17. Duret, L., Mouchiroud, D.: Expression pattern and,
    surprisingly, gen length, shape codón usage in
    Caenorhabditis, Drosophila, and Arabidopsis. Proc Natl Acad Sci
    96, 17-25, 1999.
  18. Gu, W., Zhou, T., Ma, J., Sun, X., Lu, Z.: The relationship
    between synonymous codon usage and protein structure in
    Escherichia coli and Homo sapiens. Biosystems 73, 89-97,
    2004.
  19. Gupta, S.K., Majumdar, S., Bhattacharya, K., Ghosh, T.C.:
    Studies on the relationships between synonymous codon usage and
    protein secondary structure. Biochem Biophys Res Comm 269,
    692-6, 2000.
  20. Oresic. M., Shalloway, D.: Specific correlations between
    relative synonymous codon usage and protein secondary
    structure. J Mol. Biol. 281, 31-48, 1998.
  21. Tao, X., Dafu, D.: The relationship between synonymous
    codon usage and protein structure. FEBS Lett 434, 93-6,
    1998.
  22. Fuglsang, A.: Strong associations between gene function and
    codon usage. APMIS 111, 843-7, 2003.
  23. Sanchez, R.:"Estudio del orden en el Código
    Genético mediante la aplicación de métodos
    algebraico y estadístico, 2003.
  24. Sanchez, R.:"Regularidades algebraicas del código
    genético: aplicaciones a la evolución molecular".
    Tesis presentada en opción al grado científico de
    Doctor en Ciencias Biológicas, 2006.
  25. Fawcett, T.: ROC Graphs: Notes and Practical Considerations
    for Data Mining Researchers, Hewlett-Packard Company,
    2003.
  26. Weiss, G. M., and Provost, F.: Learning When Training Data
    are Costly: The Effect of Class Distribution on Tree Induction,
    JAIR 19, 315-354, 2003.
  27. University of Waterloo, Department of Statistics and
    Actuarial Science, SPSS Instruction Manual, September 1,
    1998
  28. Swanson, R. A unifying concept for the amino acid code.
    Bull. Math. Biol. 46, 187-203, 1984.
  29. Gillis, D; Massar, S.; Cerf, N.J. y Rooman, M. (2001)
    Optimality of the genetic code with respect to protein
    stability and amino acid frequencies. Genome Biology 2,
    research0049.1-research0049.12, 2001.
  30. Taylor, J.D.T. y Thornton, J.M. Recompilation of the
    mutation matrices. CABIOS 8, 275-282, 1991.
  31. Kira S. Makarova, Yuri I. Wolf, Sergey L. Mekhedov, Boris
    G. Mirkin1 and Eugene V. Koonin. Ancestral paralogs and
    pseudoparalogs and their role in the emergence of the
    eukaryotic cell. 4626-4638 Nucleic Acids Research, 2005, Vol.
    33, No. 14
  32. Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar.
    Center of Evolutionary Functional Genomics, Biodesign
    Institute, Arizona State University. MEGA Molecular
    Evolutionary Genetics Analysis. VERSION 4, 1993 – 2008.
  33. CHAID, W. (1994). "CHAID para SPSS sobre Windows.
    Técnicas de segmentación basadas en razones de
    verosimilitud Chi-cuadrado." User Manual. SPSS Inc.
  34. PhD Mohammad Badii1, Dr. Jerónimo Landeros2, Dr.
    Victoriano Garza3. Historia evolutiva de la vida, CULCyT//Enero
    -Febrero, 2008, Año 5, No 24
  35. Ana Aber, Coordinadora, Alfredo Langguth, Editor,
    BIODIVERSIDAD Y TAXONOMÍA PRESENTE Y FUTURO. Resultados
    del Taller realizado en la Facultad de Ciencias, Universidad de
    la República. 14 – 18 de junio de 2004

ANEXOS

Anexos 1. Árbol Filogenético Universal.

Anexo 2. Fragmento de base de datos de cadenas de
proteínas
.

>gi|127069|sp|P16455|MGMT_HUMAN
Methylated-DNA–protein-cysteine methyltransferase
(6-O-methylguanine-DNA methyltransferase) (MGMT)
(O-6-methylguanine-DNA-alkyltransferase)

MDKDCEMKRTTLDSPLGKLELSGCEQGLHEIKLLGKGTSAADAVEVPAPAAVLGGPEPLMQCTAWLNAYF

HQPEAIEEFPVPALHHPVFQQESFTRQVLWKLLKVVKFGEVISYQQLAALAGNPKAARAVGGAMRGNPVP

ILIPCHRVVCSSGAVGNYSGGLAVKEWLLAHEGHRLGKPGLGGSSGLAGAWLKGAGATSGSPPAGRN

>gi|74720969|sp|Q9UJV8|PURG_HUMAN Purine-rich
element-binding protein gamma

MERARRRGGGGGRGRGGKNVGGSGLSKSRLYPQAQHSHYPHYAASATPNQAGGAAEIQELASKRVDIQKK

RFYLDVKQSSRGRFLKIAEVWIGRGRQDNIRKSKLTLSLSVAAELKDCLGDFIEHYAHLGLKGHRQEHGH

SKEQGSRRRQKHSAPSPPVSVGSEEHPHSVLKTDYIERDNRKYYLDLKENQRGRFLRIRQTMMRGTGMIG

YFGHSLGQEQTIVLPAQGMIEFRDALVQLIEDYGEGDIEERRGGDDDPLELPEGTSFRVDNKRFYFDVGS

NKYGIFLKVSEVRPPYRNTITVPFKAWTRFGENFIKYEEEMRKICNSHKEKRMDGRKASGEEQECLD

>gi|1346918|sp|Q00577|PURA_HUMAN Transcriptional activator
protein Pur-alpha (Purine-rich single-stranded DNA-binding
protein alpha)

MADRDSGSEQGGAALGSGGSLGHPGSGSGSGGGGGGGGGGGGSGGGGGGAPGGLQHETQELASKRVDIQN

KRFYLDVKQNAKGRFLKIAEVGAGGNKSRLTLSMSVAVEFRDYLGDFIEHYAQLGPSQPPDLAQAQDEPR

RALKSEFLVRENRKYYMDLKENQRGRFLRIRQTVNRGPGLGSTQGQTIALPAQGLIEFRDALAKLIDDYG

VEEEPAELPEGTSLTVDNKRFFFDVGSNKYGVFMRVSEVKPTYRNSITVPYKVWAKFGHTFCKYSEEMKK

IQEKQREKRAACEQLHQQQQQQQEETAAATLLLQGEEEGEED

>gi|13629600|sp|Q9Y2U8|MAN1_HUMAN Inner nuclear membrane
protein Man1 (LEM domain-containing protein 3)mamifero

MAAAAASAPQQLSDEELFSQLRRYGLSPGPVTESTRPVYLKKLKKLREEEQQQHRSGGRGNKTRNSNNNN

TAAATVAAAGPAAAAAAGMGVRPVSGDLSYLRTPGGLCRISASGPESLLGGPGGASAAPAAGSKVLLGFS

SDESDVEASPRDQAGGGGRKDRASLQYRGLKAPPAPLAASEVTNSNSAERRKPHSWWGARRPAGPELQTP

PGKDGAVEDEEGEGEDGEERDPETEEPLWASRTVNGSRLVPYSCRENYSDSEEEDDDDVASSRQVLKDDS

LSRHRPRRTHSKPLPPLTAKSAGGRLETSVQGGGGLAMNDRAAAAGSLDRSRNLEEAAAAEQGGGCDQVD

SSPVPRYRVNAKKLTPLLPPPLTDMDSTLDSSTGSLLKTNNHIGGGAFSVDSPRIYSNSLPPSAAVAASS

SLRINHANHTGSNHTYLKNTYNKPKLSEPEEELLQQFKREEVSPTGSFSAHYLSMFLLTAACLFFLILGL

TYLGMRGTGVSEDGELSIENPFGETFGKIQESEKTLMMNTLYKLHDRLAQLAGDHECGSSSQRTLSVQEA

AAYLKDLGPEYEGIFNTSLQWILENGKDVGIRCVGFGPEEELTNITDVQFLQSTRPLMSFWCRFRRAFVT

VTHRLLLLCLGVVMVCVVLRYMKYRWTKEEEETRQMYDMVVKIIDVLRSHNEACQENKDLQPYMPIPHVR

DSLIQPHDRKKMKKVWDRAVDFLAANESRVRTETRRIGGADFLVWRWIQPSASCDKILVIPSKVWQGQAF

HLDRRNSPPNSLTPCLKIRNMFDPVMEIGDQWHLAIQEAILEKCSDNDGIVHIAVDKNSREGCVYVKCLS

PEYAGKAFKALHGSWFDGKLVTVKYLRLDRYHHRFPQALTSNTPLKPSNKHMNSMSHLRLRTGLTNSQGS

S

>gi|8475983|sp|O75916|RGS9_HUMAN Regulator of G-protein
signaling 9 (RGS9)

MTIRHQGQQYRPRMAFLQKIEALVKDMQNPETGVRMQNQRVLVTSVPHAMTGSDVLQWIVQRLWISSLEA

QNLGNFIVRYGYIYPLQDPKNLILKPDGSLYRFQTPYFWPTQQWPAEDTDYAIYLAKRNIKKKGILEEYE

KENYNFLNQKMNYKWDFVIMQAKEQYRAGKERNKADRYALDCQEKAYWLVHRCPPGMDNVLDYGLDRVTN

PNEVKVNQKQTVVAVKKEIMYYQQALMRSTVKSSVSLGGIVKYSEQFSSNDAIMSGCLPSNPWITDDTQF

WDLNAKLVEIPTKMRVERWAFNFSELIRDPKGRQSFQYFLKKEFSGENLGFWEACEDLKYGDQSKVKEKA

EEIYKLFLAPGARRWINIDGKTMDITVKGLKHPHRYVLDAAQTHIYMLMKKDSYARYLKSPIYKDMLAKA

IEPQETTKKSSTLPFMRRHLRSSPSPVILRQLEEEAKAREAANTVDITQPGQHMAPSPHLTVYTGTCMPP

SPSSPFSSSCRSPRKPFASPSRFIRRPSTTICPSPIRVALESSSGLEQKGECSGSMAPRGPSVTESSEAS

LDTSWPRSRPRAPPKARMALSFSRFLRRGCLASPVFARLSPKCPAVSHGRVQPLGDVGQQLPRLKSKRVA

NFFQIKMDVPTGSGTCLMDSEDAGTGESGDRATEKEVICPWESL

Anexo 3. Fragmento de base de datos de uso de
codones.

>AB000095AB000095176..17171542BAA25014.1Homo,
sapiensHomo, sapiens, mRNA, for, hepatocyte, growth, factor,
activator, inhibitor,complete,
cds./codon_start=1/product="hepatocyte, growth, factor,
activator,
inhibitor"/protein_id="BAA25014.1"/db_xref="GI:2924601"

0, 16, 8, 0, 1, 7, 3, 12, 19, 2, 0, 5, 1, 9, 1, 5, 8, 4, 6,
18, 8, 4, 8, 20, 3, 5, 3, 23, 5, 3, 7, 20, 7, 6, 3, 9, 22, 1, 3,
15, 22, 1, 2, 18, 10, 2, 13, 19, 23, 4, 12, 5, 25, 6, 17, 6, 1,
13, 3, 4, 7, 0, 0, 1

>AB000099AB000099106..462357BAA25877.1Homo,
sapiensHomo, sapiens, mRNA, for, DCRB,, complete,
cds./codon_start=1/product="DCRB"/protein_id="BAA25877.1"/db_xref="GI:3090432"

0, 0, 1, 0, 4, 1, 0, 3, 4, 3, 1, 2, 4, 2, 1, 4, 4, 2, 1, 3, 2,
1, 4, 2, 1, 5, 3, 3, 0, 3, 1, 0, 3, 0, 0, 1, 0, 1, 5, 2, 1, 0, 2,
2, 3, 1, 3, 1, 2, 6, 2, 0, 2, 1, 1, 2, 3, 4, 2, 1, 2, 0, 0, 1

>AB000114AB000114101..13661266BAA19055.1Homo,
sapiensHomo, sapiens, mRNA, for, osteomodulin,, complete,
cds./codon_start=1/product="osteomodulin"/protein_id="BAA19055.1"/db_xref="GI:1769800"

1, 1, 0, 2, 5, 1, 13, 8, 4, 15, 6, 4, 8, 1, 0, 8, 4, 5, 6, 1,
0, 9, 15, 2, 1, 9, 4, 1, 0, 4, 5, 1, 2, 6, 4, 2, 4, 4, 18, 6, 9,
24, 17, 6, 9, 12, 26, 4, 10, 16, 10, 15, 4, 5, 12, 13, 6, 6, 14,
12, 1, 0, 1, 0

>AB000115AB000115242..14831242BAA19056.1Homo,
sapiensHomo, sapiens, mRNA, expressed, in, osteoblast,,
complete,
cds./codon_start=1/protein_id="BAA19056.1"/db_xref="GI:1769802"

2, 0, 3, 6, 8, 7, 7, 4, 7, 7, 10, 10, 4, 4, 1, 14, 3, 4, 5, 5,
1, 9, 7, 4, 0, 3, 10, 4, 1, 4, 9, 4, 4, 4, 3, 4, 8, 9, 17, 8, 6,
15, 6, 5, 5, 4, 13, 8, 14, 18, 3, 12, 4, 8, 2, 11, 9, 5, 23, 17,
1, 0, 0, 1

>AB000220AB000220563..28182256BAA32398.1Homo,
sapiensHomo, sapiens, mRNA, for, semaphorin, E,, complete,
cds./codon_start=1/product="semaphorin,
E"/protein_id="BAA32398.1"/db_xref="GI:3426163"

7, 5, 8, 3, 13, 13, 3, 5, 17, 7, 12, 7, 10, 13, 1, 17, 8, 11,
19, 9, 3, 19, 11, 7, 4, 12, 9, 9, 3, 16, 18, 10, 11, 5, 6, 10,
22, 16, 27, 19, 18, 22, 12, 20, 11, 13, 23, 11, 17, 26, 12, 14,
11, 12, 20, 16, 10, 12, 21, 17, 8, 1, 0, 0

>AB000221AB00022164..333270BAA21670.1Homo,
sapiensHomo, sapiens, mRNA, for, CC, chemokine,, complete,
cds./gene="PARC"/codon_start=1/product="CC,
chemokine"/protein_id="BAA21670.1"/db_xref="GI:2289719"

0, 0, 1, 0, 1, 0, 1, 6, 2, 2, 0, 0, 0, 2, 0, 1, 2, 0, 0, 5, 0,
0, 2, 3, 0, 0, 2, 3, 0, 2, 0, 2, 0, 2, 0, 5, 0, 2, 2, 7, 1, 2, 2,
4, 0, 0, 1, 1, 3, 0, 1, 2, 5, 2, 1, 0, 1, 3, 1, 2, 2, 0, 0, 1

Anexo 4. Secciones B y C del árbol de aminoácidos
asociados con las clasificaciones taxonómicas de organismos
vivos

 

Anexo 5. Secciones A y B árbol y regla de
clasificación de aminoácidos asociados con los
resultados en la base de datos curada con validación cruzada
en las clasificaciones taxonómicas de archaea, bacterias y
eucariotes. 

Regla de Clasificación

/* Node 13 */

IF (Histidina NOT MISSING   AND  (Histidina
<= 1.12076082557669))  AND  (Isoleucina NOT MISSING
AND  (Isoleucina <= 3.6787991498406))  AND 
(Ácido Glutámico NOT MISSING   AND 
(Ácido Glutámico <= 4.86217846935535))

THEN

           
Node = 13

           
Prediction = 2

           
Probability = 0.571429

/* Node 14 */

IF (Histidina NOT MISSING   AND  (Histidina
<= 1.12076082557669))  AND  (Isoleucina NOT
MISSING   AND  (Isoleucina <= 3.6787991498406))
 AND  (Ácido Glutámico IS MISSING  OR
(Ácido Glutámico > 4.86217846935535))

THEN

           
Node = 14

           
Prediction = 1

           
Probability = 1.000000

/* Node 15 */

IF (Histidina NOT MISSING   AND  (Histidina
<= 1.12076082557669))  AND  (Isoleucina IS
MISSING  OR (Isoleucina > 3.6787991498406  AND 
Isoleucina <= 4.65842040565458))  AND  (Valina NOT
MISSING   AND  (Valina <=
4.80227023068473))

THEN

           
Node = 15

           
Prediction = 2

           
Probability = 0.636364

/* Node 16 */

IF (Histidina NOT MISSING   AND  (Histidina
<= 1.12076082557669))  AND  (Isoleucina IS
MISSING  OR (Isoleucina > 3.6787991498406  AND 
Isoleucina <= 4.65842040565458))  AND  (Valina IS
MISSING  OR (Valina > 4.80227023068473))

THEN

           
Node = 16

           
Prediction = 2

           
Probability = 1.000000

/* Node 7 */

IF (Histidina NOT MISSING   AND  (Histidina
<= 1.12076082557669))  AND  (Isoleucina NOT
MISSING   AND  (Isoleucina >
4.65842040565458))

THEN

           
Node = 7

           
Prediction = 1

           
Probability = 1.000000

/* Node 8 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.12076082557669  AND  Histidina <=
1.39913310456926))  AND  (Ácido Glutámico NOT
MISSING   AND  (Ácido Glutámico <=
3.66998451669985))

THEN

           
Node = 8

           
Prediction = 3

           
Probability = 1.000000

/* Node 17 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.12076082557669  AND  Histidina <=
1.39913310456926))  AND  (Ácido Glutámico IS
MISSING  OR (Ácido Glutámico >
3.66998451669985  AND  Ácido Glutámico <=
4.86217846935535))  AND  (Serina IS MISSING  OR
(Serina <= 4.18460680423871))

THEN

           
Node = 17

           
Prediction = 2

           
Probability = 0.941176

/* Node 18 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.12076082557669  AND  Histidina <=
1.39913310456926))  AND  (Ácido Glutámico IS
MISSING  OR (Ácido Glutámico >
3.66998451669985  AND  Ácido Glutámico <=
4.86217846935535))  AND  (Serina NOT
MISSING   AND  (Serina > 4.18460680423871))

THEN

           
Node = 18

           
Prediction = 3

           
Probability = 1.000000

/* Node 10 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.12076082557669  AND  Histidina <=
1.39913310456926))  AND  (Ácido Glutámico NOT
MISSING   AND  (Ácido Glutámico >
4.86217846935535))

THEN

           
Node = 10

           
Prediction = 1

           
Probability = 0.966667

/* Node 11 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.39913310456926  AND  Histidina <=
1.51311126860383))  AND  (Serina NOT
MISSING   AND  (Serina <= 3.6231101511879))

THEN

           
Node = 11

           
Prediction = 1

           
Probability = 0.857143

/* Node 12 */

IF (Histidina NOT MISSING   AND  (Histidina
> 1.39913310456926  AND  Histidina <=
1.51311126860383))  AND  (Serina IS MISSING  OR
(Serina > 3.6231101511879))

THEN

           
Node = 12

           
Prediction = 3

           
Probability = 1.000000

/* Node 4 */

IF (Histidina IS MISSING  OR (Histidina >
1.51311126860383))

THEN

           
Node = 4

           
Prediction = 3

           
Probability = 1.000000

Anexo 6. Matriz de correlaciones entre los
aminoácidos en los Taxa archaeas, bacterias y
eucariotes.

Anexo 7. Implementación en el Matemática de los
calculos necesaris para la partición de las bases de datos
en subgrupos  y la obtención de los vectores
NECk.

Anexo 8. Implementación en el Matemática para la
selección aleatoria de las matrices de distancia

Agradecimientos

A mi tutor Robersy Sánchez  por su apoyo en
todo  momento

A mis padres y hermanas

                       
Al Grupo de Bioinformática

                   
Al Departamento de Matemática

A  todos los que me han ayudado

Agradecimiento especial

A mi hija María Fernanda y a mi esposo por ser fuentes
inspiradoras  en cada paso por el camino de la vida

Autora:

María Milena Rodríguez Fernández

Autores:   

Msc. María Milena Rodríguez Fernández

Dr. Robersy Sánchez Rodríguez

País: Cuba.

Institución: UNIVERSIDAD CENTRAL "MARTA ABREU" DE
LAS VILLAS. FACULTAD DE MATEMÁTICA, FÍSICA Y
COMPUTACIÓN

[1] Aunque no es indispensable para la
comprensión de texto, si el lector está interesado,
el nombre del aminoácido correspondiente a cada
símbolo lo puede encontrar en la sección 2.2.

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter