Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 6)
Cisteína | -0.112406 |
Isoleucina | -0.097109 |
Arginina | 0.0765084 |
Alanina | -0.072726 |
Serina | -0.07265 |
Fenilalanina | -0.069234 |
Metionina | -0.061917 |
Glutamina | 0.0590462 |
Asparagina | 0.0554707 |
Tabla 3.2.6.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | -0.120741 | – |
Cisteína | -0.112789 | – |
Ácido Aspártico | 1.2602754 | 1.3495373 |
Ácido Glutámico | 1.6410213 | 1.3228442 |
Fenilalanina | 1.0233814 | 1.0276529 |
Glicina | 0.9222785 | 1.1378398 |
Histidina | 1.8013634 | 2.0428226 |
Isoleucina | 0.2280033 | – |
Lisina | 0.8002481 | 1.1375742 |
Leucina | -0.844817 | -0.747004 |
Metionina | 2.740958 | 3.3493038 |
Asparagina | -0.54982 | – |
Prolina | 2.0142909 | 3.3493038 |
Glutamina | -0.023842 | – |
Arginina | -0.991585 | – |
Serina | 0.1109863 | – |
Treonina | -0.717032 | – |
Valina | 0.2848558 | – |
Triptófano | -2.760603 | -3.129541 |
(Constant) | -18.40188 | -26.26685 |
Tabla 3.2.6.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise |
|
|
|
|
|
|
|
|
|
1 | 6.352 | 100 | 100 | 0.930 | 1 | 0.136 | 191.516 | 10 | 0.00 |
Todas las variables |
|
|
|
|
|
|
|
| |
1 | 6.942 | 100 | 100 | 0.935 | 1 | 0.126 | 189.601 | 19 | 0.00 |
Tabla 3.2.6.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
|
|
|
| Límite inferior | Límite superior |
Probabilidad Homo Sapiens | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Homo Sapiens | 0.949 | 0.020 | 0.000 | 0.911 | 0.988 |
Probabilidad Homo Sapiens | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.2.6.1.1Curvas ROC obtenidas con
los dos métodos de discriminante y con el método CHAID
para Homo Sapiens.
Tabla 3.2.6.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. |
|
|
| |||||
|
| Grupos | Razón de TP | Razón TN | Prec. | Exac. | % de Clasf. | |
70 % base de datos extendida | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación cruzada | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación externa | Primates | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | ||
|
| HomoS | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
Predicciones de los miembros del Grupo con Anl. |
|
| ||||||
70 % base de datos extendida | Primates | 98.2 | 100.0 | 100.0 | 99.0 | 98.2 | ||
|
| HomoS | 100.0 | 98.2 | 97.9 | 99.0 | 100.0 | |
Validación cruzada | Primates | 96.4 | 97.9 | 98.2 | 97.1 | 96.4 | ||
|
| HomoS | 97.9 | 96.4 | 95.8 | 97.1 | 97.9 | |
Validación externa | Primates | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | ||
|
| HomoS | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
Predicciones de los miembros del Grupo con |
|
|
|
| ||||
70 % base de datos extendida | Primate | 96.4 | 89.4 | 91.5 | 93.2 | 96.4 | ||
|
| HomoS | 89.4 | 95.5 | 95.5 | 93.2 | 89.4 | |
Validación externa | Primate | 92.9 | 65.2 | 61.9 | 75.7 | 92.9 | ||
|
| HomoS | 65.2 | 93.8 | 93.8 | 75.7 | 65.2 | |
1.8.
Construcción de árboles de clasificación mediante
el método CHAID atendiendo a las frecuencias del uso de
codones de los aminoácidos en los genes.
Al pasar de una secuencia de codones a la correspondiente
secuencia de aminoácidos se pierde información debido a
la degeneración del código genético (ver
sección 1.2). Por tal motivo, pudiera pensarse que ocurra un
cambio en los vectores NECk tal que afecte la
clasificación de los taxa. Luego, se hace necesaria la
verificación de la hipótesis de investigación
partiendo de secuencias de genes. En nuestro caso, como se
explicó en el capítulo 2, se utilizó la
información recopilada en la base de datos de uso de
codones.
Los análisis se realizaron utilizando como entrenamiento
el 70% de las bases de datos de los taxa construidas. Se
realizó validación cruzada con la base de entrenamiento
y una validación externa con el 30% restante.
1.8.1. Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en organismos
vivos.
En el análisis realizado con todos los taxa se obtienen
bajos porcientos de clasificación. Sin embargo, al igual que
el resultado obtenido con las bases de secuencias de
proteínas, se verificó que todos los aminoácidos
están asociados de manera altamente significativa con la
clasificación biológica. En particular, los resultados
obtenidos con CHAID se resumen en la Tabla 3.3.1.1, donde podemos
observar que el aminoácido con mayor significación es
el que produce mayor porciento de clasificación aunque no
sea bueno, mientras con el análisis de Discriminante en las
Tablas 3.3.1.2 y 3.3.1.3, por ejemplo la Tirosina, el cual
no está incluído en las combinaciones lineales de las
funciones discriminantes para el caso en que intervienen todos
los aminoácidos si esta presente cuando se aplica el
método de Stepwies, además presenta correlaciones altas
con la funciones discriminantes.
Aunque, al igual que con la base de aminoácidos,
los porcientos de clasificación correcta obtenidos con el
análisis de Discriminante son mejores que con el método
CHAID, los resultados sugieren que es posible alcanzar una mayor
significación estadística en la diferenciación de
los taxa si se analizan por separados grupos de taxa atendiendo a
criterios de interés biológicos-evolutivos.
Tabla 3.3.1.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Fenilalanina | 1.11011E-19 | 62,9 |
Metionina | 4.56265E-29 | 63,6 |
Arginina | 5.26252E-30 | 64,2 |
Triptófano | 7.63E-36 | 66,9 |
Prolina | 7.93253E-41 | 67,8 |
Tirosina | 1.96584E-42 | 68 |
Leucina | 2.69777E-47 | 69,8 |
Ácido Glutámico | 1.27706E-48 | 66 |
Histidina | 1.83529E-49 | 67,3 |
Ácido Aspártico | 1.11934E-51 | 68,4 |
Glicina | 3.50217E-52 | 66,2 |
Lisina | 2.17215E-54 | 68,7 |
Asparagina | 3.46256E-61 | 67,3 |
Treonina | 2.64E-61 | 66,4 |
Isoleucina | 1.55462E-61 | 64 |
Cisteína | 4.30445E-70 | 66 |
Glutamina | 1.23215E-77 | 65,1 |
Valina | 1.52126E-78 | 70 |
Alanina | 4.39E-93 | 70,2 |
Serina | 3.2243E-101 | 72,4 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.
Tabla 3.3.1.2. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.
Tabla 3.3.1.3. Funciones discriminantes canónicas
obtenidas con la introducción de todos los aminoácidos
que satisfacen el test de tolerancia y con el método
stepwise.
1.8.2. Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
archaeabacterias, bacterias y eucariotes.
Usando el método CHAID en el caso de los tres reinos pero
para el caso donde sean secuencias de uso de genes en una
base de datos que muestra diversidad de organismos y tipos de
proteinas presentes, se obtienen resultados excelentes desde el
punto de vista de clasificación así como
interacción entre aminoácidos lo cual se muestra en la
Tabla 3.3.2.1, donde la Serina alcanza un 98,7 % de
clasificación, Tabla 3.3.2.1, y siendo el que mayor
significación posee, apareciendo en el nodo principal del
árbol de la Figura3.3.2.1, donde aparecen en los nodos
secundarios aminoácidos como la Lisina y el Triptófano
que también presentan una buena significación.
Tabla 3.3.2.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Leucina | 1.03509E-09 | 98 |
Ácido Aspártico | 4.12693E-11 | 98 |
Metionina | 1.77809E-11 | 96,9 |
Fenilalanina | 6.98123E-13 | 97,3 |
Triptófano | 1.86E-14 | 98,2 |
Arginina | 7.5487E-18 | 96,7 |
Tirosina | 4.05541E-20 | 97,1 |
Prolina | 1.48704E-28 | 98,4 |
Asparagina | 7.28407E-29 | 98,4 |
Treonina | 5.98501E-39 | 97,6 |
Ácido Glutámico | 1.77E-40 | 97,3 |
Histidina | 1.61649E-46 | 97,6 |
Glicina | 8.24765E-48 | 96,2 |
Lisina | 2.03555E-51 | 98,2 |
Isoleucina | 3.92231E-57 | 98,9 |
Glutamina | 9.01E-59 | 98,4 |
Valina | 6.9077E-64 | 97,8 |
Cisteína | 5.6843E-64 | 97,1 |
Alanina | 7.97147E-66 | 97,1 |
Serina | 1.9151E-99 | 98,7 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.
Tabla 3.3.2.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.
Figura 3.3.2.1 Árbol de aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaeas,
bacterias y eucariote.
Tabla 3.3.2.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.
1.8.2.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.
Con el análisis de discriminante realizado en esta taxa
se comprueba que todos los aminoácidos están asociados
con la clasificación de los vectores NECk
en los tres reinos. En la Tabla 3.3.2.1.1 se puede ver que, el
aminoácido Tirosina está incluído solo en las
combinaciones lineales de las funciones discriminantes cuando se
utiliza el método Stepwise. Mientras, en la Tabla 3.3.2.1.2
se puede apreciar que la eficacia de las funciones discriminantes
en la separación de los casos en grupos, expresada a
través de las correlaciones canónicas, es similar para
ambos procedimientos. Además, los valores de la Lambda de
Wilk y la significación del test Chi-cuadrado indican que
las capacidades discriminatorias de las funciones obtenidas por
estos procedimientos son similares. En particular, para todas las
funciones los valores de estos parámetros son altos,
indicando el buen desempeño de las funciones discriminantes,
que también se observa en el gráfico de dispersión
que aparece en la Figura 3.3.2.1.1.
En la comparación de los clasificadores no hay
diferencias en los indicadores este hecho se ilustra en las
curvas ROC obtenidas (Figura 3.3.2.1.2) y en la Tabla 3.3.2.1.3,
en la que se muestra que los intervalos de confianza
asimtóticos para 95% de confianza de las áreas bajo la
curva ROC. Cuando se utilizan los parámetros derivados de la
matríz de confusión para evaluar el desempeño de
estos clasificadores, nos sugieren que las diferencias entre los
clasificadores no son significativas. En la Tabla 3.3.2.1.4 se
muestran los valores de los parámetros mencionados.
Tabla 3.3.2.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácido | Todas |
| Stepwise |
|
| Función discriminante | Función discriminante | ||
| 1 | 2 | 1 | 2 |
Alanina | 1.87522537 | 2.71219483 | – | – |
Cisteína | 2.35349121 | 1.18627654 | – | – |
Ácido Aspártico | 1.65542172 | 3.79086839 | 0.01505919 | 2.05921876 |
Ácido Glutámico | 0.87853914 | 1.21141879 | 0.76471639 | 1.39716935 |
Fenilalanina | 1.33390973 | 2.39542641 | – | – |
Glicina | 2.0104053 | 2.14675602 | – | – |
Histidina | 3.00759821 | 4.41305899 | – | – |
Isoleucina | 0.64295095 | 2.41513135 | 1.17796651 | 0.27728312 |
Lisina | 1.32325793 | 1.7472425 | 0.53833916 | 0.71379549 |
Leucina | 1.18522417 | 2.86236885 | 0.64675298 | 0.44148571 |
Metionina | 1.68716796 | 2.00676784 | – | – |
Asparagina | 1.301334 | 3.1603493 | – | – |
Prolina | 0.79049656 | 1.32850812 | 2.25283399 | 1.36749052 |
Glutamina | 2.81106128 | 3.52604836 | 1.10296299 | 1.15205197 |
Arginina | 0.66028745 | 1.79338244 | 0.82580626 | 0.59797662 |
Serina | 4.30810311 | 0.83123861 | 2.53607525 | 1.61273661 |
Treonina | 0.942135 | 3.88635571 | 1.02379164 | 1.61152628 |
Valina | 0.13613422 | 2.18525549 | 1.48574882 | 0.39439735 |
Tirosina | – | – | 2.25373227 | 2.07990895 |
Triptófano | 0.34218149 | 2.18638374 | – | – |
(Constante) | 78.0678216 | 141.079972 | 29.0273106 | 9.24919259 |
Tabla 3.3.2.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 36.883 | 73.164 | 73.164 | 0.987 | 1 a 2 | 0.002 | 634.217 | 24 | 0.000 |
2 | 13.529 | 26.836 | 100.000 | 0.965 | 2 | 0.069 | 268.950 | 11 | 0.000 |
Todas las variables | |||||||||
1 | 39.824 | 71.749 | 71.749 | 0.988 | 1 a 2 | 0.001 | 632.783 | 38 | 0.000 |
2 | 15.681 | 28.251 | 100.000 | 0.970 | 2 | 0.060 | 272.983 | 18 | 0.000 |
Tabla 3.3.2.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Archaea (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Archaea (Análisis | 0.997 | 0.002 | 0.000 | 0.993 | 1.000 |
Probabilidad Archaea (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis | 0.997 | 0.002 | 0.000 | 0.993 | 1.000 |
Probabilidad Bacteria (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Eucariotes | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.3.2.1.1 Gráfico de dispersión de la
función Discriminante.
Figura 3.3.2.1.2Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.
Tabla 3.3.2.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del | |||||
70 % base de datos extendida |
|
|
| ||
Org. | Razón de TP | Razón de TN | Precisión | Exactitud | % Clasif. |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación |
|
|
|
| |
Archaea | 100.0 | 98.6 | 97.5 | 99.1 | 100.0 |
Bacteria | 97.3 | 100.0 | 100.0 | 99.1 | 97.3 |
Eucariotes | 100.0 | 98.7 | 100.0 | 99.1 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del | |||||
70 % base de datos extendida |
|
|
| ||
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación |
|
|
|
| |
Archaea | 100.0 | 98.6 | 97.5 | 99.1 | 100.0 |
Bacteria | 97.3 | 100.0 | 100.0 | 99.1 | 97.3 |
Eucariotes | 100.0 | 98.7 | 100.0 | 99.1 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Eucariotes | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del |
|
| |||
70 % base de datos |
|
|
| ||
Archaea | 97.4 | 98.6 | 97.4 | 98.2 | 97.4 |
Bacteria | 97.3 | 98.6 | 97.3 | 98.2 | 97.3 |
Eucariotes | 100.0 | 97.4 | 100.0 | 98.2 | 100.0 |
Validación externa |
|
|
|
| |
Archaea | 90.9 | 100.0 | 100.0 | 97.6 | 90.9 |
Bacteria | 100.0 | 96.4 | 92.9 | 97.6 | 100.0 |
Eucariotes | 100.0 | 95.8 | 100.0 | 97.6 | 100.0 |
1.8.3. Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
archaeabacterias y bacterias.
Con el método CHAID en estos dos reinos, se observa en la
Tabla 3.3.3.1, que al igual que en la taxa anterior el
aminoácido Serina tiene el mejor porciento de
clasificación, mientras la mayor significación la posee
la Lisina que también estaba presente en los
aminoácidos de mayor significación en la taxa anterior,
los porcientos de clasificación se pueden ver en la Tabla
3.3.3.2 y el árbol correspondiente es el que aparece en la
Figura 3.3.3.1.
Tabla 3.3.3.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Asparagina | 0.01478413 | 96 |
Cisteína | 4.81751E-05 | 98 |
Leucina | 1.4552E-05 | 96 |
Valina | 1.26618E-06 | 95 |
Ácido Aspártico | 1.36782E-07 | 94 |
Metionina | 1.04092E-07 | 96 |
Arginina | 2.40979E-08 | 97 |
Serina | 1.04247E-08 | 98 |
Triptófano | 9.33E-13 | 94 |
Tirosina | 2.14801E-15 | 96 |
Glicina | 1.86287E-15 | 96 |
Prolina | 7.69908E-21 | 97 |
Histidina | 1.09352E-21 | 94 |
Treonina | 1.33227E-22 | 97 |
Página anterior | Volver al principio del trabajo | Página siguiente |