Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 4)
Cisteína | 3.310732231 | -1.692376434 | 1.901286543 | 1.965185789 |
Ácido Aspártico | 1.558358609 | 0.317792496 | – | – |
Ácido Glutámico | 0.792671149 | -0.964414539 | -0.747640779 | 1.387547125 |
Fenilalanina | 1.464973618 | 0.261072156 | – | – |
Glicina | 0.905491907 | 0.298178086 | -0.661236016 | 0.17008811 |
Histidina | 3.650391437 | -0.681412275 | 2.111016944 | 1.442137596 |
Isoleucina | 1.251241606 | 0.315105464 | – | – |
Lisina | 1.291028255 | 0.781428574 | -0.259736438 | -0.365299324 |
Leucina | 1.692656627 | 0.627164431 | – | – |
Metionina | 2.232989862 | 0.355582763 | 0.735120813 | 0.096567728 |
Asparagina | 1.755662058 | 0.466027904 | – | – |
Prolina | 1.680706246 | 0.694573323 | – | – |
Glutamina | 2.661642231 | 1.967428169 | 1.217848927 | -1.606940573 |
Arginina | 1.453948483 | 0.854261427 | 0.061374096 | -0.534533261 |
Serina | 2.386767639 | -0.472410556 | 0.987602167 | 0.817741217 |
Treonina | 1.355212891 | 0.56985644 | 0.924887649 | -0.466115737 |
Valina | 2.522376259 | 1.000621086 | – | – |
Tirosina | – | – | -1.546234127 | 0.906075053 |
Triptófano | 1.599846115 | -0.626305971 | – | – |
(Constante) | -95.07061812 | -21.02880013 | -2.504492874 | -6.918114573 |
Tabla 3.2.2.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 7.052 | 78.88 | 78.88 | 0.936 | 1 a 2 | 0.043 | 1275.937 | 24 | 0.000 |
2 | 1.888 | 21.12 | 100 | 0.809 | 2 | 0.346 | 430.085 | 11 | 0.000 |
Todas las variables | |||||||||
1 | 7.248 | 78.578 | 78.578 | 0.937 | 1 a 2 | 0.041 | 1286.631 | 38 | 0.000 |
2 | 1.976 | 21.422 | 100 | 0.815 | 2 | 0.336 | 438.414 | 18 | 0.000 |
Figura 3.2.2.1.1 Gráfico de
dispersión de la función Discriminante.
Este hecho se ilustra en las curvas ROC obtenidas (Figura
3.2.2.1.2) y en la Tabla 3.2.2.1.4, en la que se muestra que los
intervalos de confianza asintóticos para 95% de confianza de
las áreas bajo la curva ROC se solapan. Sin embargo, al
utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, nos sugieren que existen algunas diferencias
entre los clasificadores. En la Tabla 3.2.2.1.5 se muestran los
valores de los parámetros mencionados.
Tabla 3.2.2.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Archaea (Análisis | 0.991 | 0.003 | 0.000 | 0.985 | 0.996 |
Probabilidad Archaea (Análisis | 0.987 | 0.004 | 0.000 | 0.980 | 0.995 |
Probabilidad Archaea (Análisis | 0.991 | 0.003 | 0.000 | 0.986 | 0.997 |
Probabilidad Bacteria (Análisis | 0.982 | 0.004 | 0.000 | 0.974 | 0.990 |
Probabilidad Bacteria (Análisis | 0.967 | 0.008 | 0.000 | 0.952 | 0.983 |
Probabilidad Bacteria (Análisis | 0.983 | 0.004 | 0.000 | 0.975 | 0.991 |
Probabilidad Eucariotes | 0.999 | 0.001 | 0.000 | 0.998 | 1.000 |
Probabilidad Eucariotes | 0.984 | 0.005 | 0.000 | 0.975 | 0.994 |
Probabilidad Eucariotes | 0.999 | 0.001 | 0.000 | 0.997 | 1.000 |
Figura 3.2.2.1.2Curvas ROC obtenidas con
los dos métodos de discriminante y con el método
CHAID.
Tabla 3.2.2.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. | ||||||
| 70 % base de datos extendida | |||||
Org. | Archaea | Bacteria | Eucariotes | Razón de TP | Razón TN | Precisión |
Archaea | 93.2 | 6.8 | 0.0 | 93.2 | 94.0 | 92.6 |
Bacteria | 8.2 | 90.3 | 1.5 | 90.3 | 95.4 | 90.3 |
Eucariotes | 0.0 | 2.3 | 97.7 | 97.7 | 91.8 | 98.5 |
| Validación | |||||
Archaea | 92.6 | 7.4 | 0.0 | 92.6 | 92.5 | 91.3 |
Bacteria | 9.7 | 88.8 | 1.5 | 88.8 | 94.3 | 88.1 |
Eucariotes | 0.0 | 3.8 | 96.2 | 96.2 | 90.8 | 98.4 |
| Validación externa | |||||
Archaea | 88.5 | 11.5 | 0.0 | 88.5 | 92.5 | 93.9 |
Bacteria | 4.5 | 92.4 | 3.0 | 92.4 | 90.8 | 84.7 |
Eucariotes | 0.0 | 7.4 | 92.6 | 92.6 | 90.7 | 96.9 |
Predicciones de los miembros del Grupo con Anl. | ||||||
| 70 % base de datos extendida | |||||
Archaea | 91.9 | 8.1 | 0.0 | 91.9 | 94.4 | 93.2 |
Bacteria | 7.5 | 91.0 | 1.5 | 91.0 | 94.6 | 89.1 |
Eucariotes | 0.0 | 2.3 | 97.7 | 97.7 | 91.5 | 98.5 |
| Validación | |||||
Archaea | 91.9 | 8.1 | 0.0 | 91.9 | 92.5 | 92.5 |
Bacteria | 8.2 | 90.3 | 1.5 | 90.3 | 93.2 | 86.4 |
Eucariotes | 0.0 | 5.3 | 94.7 | 94.7 | 91.1 | 98.4 |
| Validación externa | |||||
Archaea | 90.4 | 9.6 | 0.0 | 90.4 | 91.8 | 92.2 |
Bacteria | 6.1 | 90.9 | 3.0 | 90.9 | 91.7 | 85.7 |
Eucariotes | 0.0 | 7.4 | 92.6 | 92.6 | 90.7 | 96.9 |
| Predicciones de los miembros del | |||||
| 70 % base de datos | |||||
Archaea | 95.3 | 4.7 | 0.0 | 95.3 | 95.5 | 99.3 |
Bacteria | 0.7 | 95.5 | 3.7 | 95.5 | 95.4 | 90.8 |
Eucariotes | 0.0 | 4.5 | 95.5 | 95.5 | 95.4 | 96.2 |
| Validación externa | |||||
Archaea | 47.0 | 4.0 | 1.0 | 90.4 | 91.8 | 100.0 |
Bacteria | 0.0 | 62.0 | 4.0 | 93.9 | 90.0 | 84.9 |
Eucariotes | 0.0 | 7.0 | 61.0 | 89.7 | 92.4 | 92.4 |
1.7.3. Aminoácidos asociados con la
clasificación taxonómica en archaeabacterias y
bacterias.
En un primer análisis se utilizó la técnica del
CHAID con validación cruzada en la base de datos curada. El
método CHAID construye, por defecto, el árbol de la
variable con mayor significación estadística. Para esta
base el aminoácido de mayor significación es la
Alanina, cuyo árbol se muestra en la Figura 3.2.3.1. En la
tabla de clasificación correspondiente se aprecia que para
las bacterias se alcanza un 100% de clasificación, mientras
que en la clasificación total se logra un 96% (Tabla
3.2.3.1). No obstante, en la Tabla 3.2.3.2 se puede ver que todos
los aminoácidos están fuertemente asociados con la
clasificación taxonómica biológica y que el
aminoácido con mayor significación estadística no
es el que causa el mejor porciento de clasificación.
Figura 3.2.3.1 Árbol de Aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaea y
bacterias.
Tabla 3.2.3.1. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.
Tabla 3.2.3.2. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Serina | 0.043322937 | 99 |
Glicina | 0.042580131 | 96 |
Fenilalanina | 0.005793191 | 100 |
Valina | 0.002078548 | 97 |
Cisteína | 0.001020605 | 96 |
Prolina | 0.000393157 | 98 |
Treonina | 0.000319579 | 97 |
Glutamina | 0.000292468 | 97 |
Tirosina | 0.000151604 | 93 |
Metionina | 2.52667E-08 | 94 |
Leucina | 9.64362E-10 | 93 |
Arginina | 4.37685E-10 | 92 |
Triptófano | 2.64469E-13 | 96 |
Ácido Glutámico | 1.63794E-14 | 93 |
Histidina | 1.4771E-14 | 97 |
Isoleucina | 5.9E-15 | 95 |
Ácido Aspártico | 7.09697E-19 | 96 |
Lisina | 6.90823E-20 | 96 |
Asparagina | 6.90823E-20 | 97 |
Alanina | 1.28E-24 | 96 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5
En la Figura.3.2.3.2 se muestra el árbol de decisión
obtenido por método CHAID en la base de datos curada
forzando la entrada del aminoácido Fenilalanina, mientras
que en la Tabla 3.2.3.3 se muestra los porcientos de
clasificación. Los resultados muestran que forzando la
entrada del aminoácido Fenilalanina produce una
separación definitiva de las archaeas y bacterias. Notemos
que, para este aminoácido se obtiene el 100 % de
clasificación, aunque está lejos de tener una buena
significación estadística (si lo comparamos con el
resto de los aminoácidos).
Figura 3.2.3.2.A. Árbol de Aminoácidos
asociados con los resultados en la base de datos curada con
validación cruzada en las clasificaciones taxonómicas
de archaea y bacterias, forzando la Fenilalanina.
Figura 3.2.3.2.B. Árbol de
Aminoácidos asociados con los resultados en la base de datos
curada con validación cruzada en las clasificaciones
taxonómicas de archaea y bacterias, forzando la
Fenilalanina.
Tabla 3.2.3.3. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada, forzando la Fenilalanina.
Tabla 3.2.3.4. Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa.
Hasta este punto, se ha verificado que es posible diferenciar
los reinos de bacterias y archaeas utilizando bases de secuencias
en las que se ha reducido el número de secuencias que
comparten características comunes a ambas taxa y expresan,
en mayor medidad, la variabilidad propia de cada taxa. Sin
embargo, por construcción, la base curada no contiene la
variabilidad necesaria, en las secuencias de proteínas que
la conforman, para ser útil como base de entrenamiento que
permita obtener un clasificador capáz de alcanzar un buen
desempeño ante una base externa con alta variabilidad de
secuencias. Estos hechos evidencian que si se desea clasificar
secuencias de proteínas con mayor variabilidad en las
distribuciones de aminoácidos correspondientes, es necesario
extender la base curada con secuencias que compartan
características estadísticas comunes a ambos taxa. En
la Tabla 3.2.3.4 se muestra el resultado del análisis con el
CHAID de la base extendida formada por 200 vectores de cada taxa.
En la base de entrenamiento (70% de la base) se alcanzó el
98% de clasificación total, mientras que en la
validación externa el 99% (30% de la base).
1.7.3.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.
El análisis de discriminante realizado en esta taxa
muestra que todos los aminoácidos están asociados con
la clasificación de los vectores NECk. En
la Tabla 3.2.3.1.1 se puede ver que, incluso aquellos que no
están presentes en uno de los dos métodos Tabla
3.2.3.1.2, o en ambos, como es el caso de la Tirosina poseen
correlaciones mayores que algunos de los incluidos.
En la Tabla 3.2.3.1.3 se puede apreciar que los valores de la
Lambda de Wilk y la significación del test Chi-cuadrado
indican que las capacidades discriminatorias de las funciones
obtenidas por estos procedimientos son similares. La eficacia de
las funciones discriminantes en la separación de los casos
en grupos, se expresa a través de los valores de las
correlaciones canónicas.
Para evaluar el desempeño del CHAID y el Discriminante
usamos las curvas ROC obtenidas (Figura 3.2.3.1.1) y en la Tabla
3.2.3.1.4, tenemos los valores de las áreas bajo la curva,
estos elementos muestran que no hay diferencias significativas
entre los dos métodos. Al utilizar los parámetros
derivados de la matríz de confusión, nos sugieren que
las diferencias entre los clasificadores son mínimas. En la
Tabla 3.2.3.1.5 se muestran los valores de los parámetros
mencionados.
Tabla 3.2.3.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.
Aminoácido | Función Discriminante |
Glutamina | 0.55 |
Isoleucina a | -0.45 |
Arginina | 0.428 |
Lisina | -0.403 |
Tirosina a | -0.367 |
Alanina | 0.357 |
Prolina | 0.318 |
Asparagina | -0.311 |
Serina | -0.246 |
Fenilalanina a | -0.202 |
Histidina a | 0.138 |
Cisteína a | -0.118 |
Leucina | 0.104 |
Ácido Aspártico | 0.087 |
Valina | 0.067 |
Treonina | 0.045 |
Triptófano a | 0.039 |
Ácido Glutámico a | -0.029 |
Metionina | -0.025 |
Glicina | 0.009 |
Tabla 3.2.3.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácidos | Función discriminante | |
Todas | Stepwise | |
Alanina | 0.86593423 | 0.8051423 |
Cisteína | 0.56531521 | – |
Ácido Aspártico | 0.82557749 | 0.71594929 |
Ácido Glutámico | 0.33801189 | – |
Fenilalanina | 0.10955719 | – |
Glicina | 0.55514944 | 0.64425764 |
Histidina | 0.26960293 | – |
Isoleucina | 0.26424837 | – |
Lisina | 1.55534119 | 1.54844199 |
Leucina | 1.85565316 | 1.99078812 |
Metionina | 2.25971271 | 2.38887696 |
Asparagina | 2.20713337 | 2.33146195 |
Prolina | 2.27098881 | 2.46609259 |
Glutamina | 2.69197518 | 2.63442816 |
Arginina | 1.15922745 | 1.12068112 |
Serina | 0.47466926 | 0.50092619 |
Treonina | 2.20243491 | 2.44662457 |
Valina | 1.10444373 | 1.04160686 |
Triptófano | 0.05608013 | – |
(Constant) | 59.0681373 | 61.4489587 |
Tabla 3.2.3.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 3.789 | 100 | 100 | 0.889 | 1 | 0.209 | 448.777 | 13 | 0.000 |
Todas las variables | |||||||||
1 | 3.886 | 100 | 100 | 0.892 | 1 | 0.205 | 449.715 | 19 | 0.000 |
Tabla 3.2.3.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Bacteria (Análisis | 0.995 | 0.002 | 0.000 | 0.991 | 0.999 |
Probabilidad Bacteria (Análisis | 0.996 | 0.002 | 0.000 | 0.992 | 1.000 |
Probabilidad Bacteria (Análisis | 0.996 | 0.002 | 0.000 | 0.992 | 1.000 |
Figura 3.2.3.1.1Curvas ROC obtenidas con
los dos métodos de discriminante y con el método CHAID
para bacterias.
Tabla 3.2.3.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. |
|
|
| ||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Archaea | 99.3 | 93.2 | 93.7 | 96.3 | 99.3 | |
|
| Bacteria | 93.2 | 99.3 | 99.3 | 96.3 | 93.2 |
Validación cruzada | Archaea | 99.3 | 91.1 | 91.9 | 95.3 | 99.3 | |
|
| Bacteria | 91.1 | 99.3 | 99.3 | 95.3 | 91.1 |
Validación externa | Archaea | 96.1 | 98.1 | 98.0 | 97.1 | 96.1 | |
|
| Bacteria | 98.1 | 96.1 | 96.4 | 97.1 | 98.1 |
Predicciones de los miembros del Grupo con Anl. |
|
|
| ||||
70 % base de datos extendida | Archaea | 100.0 | 93.8 | 94.3 | 96.9 | 100.0 | |
|
| Bacteria | 93.8 | 100.0 | 100.0 | 96.9 | 93.8 |
Validación cruzada | Archaea | 99.3 | 90.4 | 91.4 | 94.9 | 99.3 | |
|
| Bacteria | 90.4 | 99.3 | 99.2 | 94.9 | 90.4 |
Validación externa | Archaea | 98.0 | 98.1 | 98.0 | 98.1 | 98.0 | |
|
| Bacteria | 98.1 | 98.0 | 98.1 | 98.1 | 98.1 |
Predicciones de los miembros del Grupo con |
|
|
|
| |||
70 % base de datos extendida | Archaea | 99.3 | 96.6 | 96.7 | 98.0 | 99.3 | |
|
| Bacteria | 96.6 | 99.3 | 99.3 | 98.0 | 96.6 |
Validación externa | Archaea | 100.0 | 98.1 | 98.1 | 99.0 | 100.0 | |
|
| Bacteria | 98.1 | 100.0 | 100.0 | 99.0 | 98.1 |
1.7.4.
Aminoácidos asociados con la clasificación
taxonómica en vertebrados e invertebrados.
Cuando se aplica la técnica CHAID a la base curada con
una validación cruzada se tienen los datos de la Tabla
3.2.4.1, donde podemos observar la correlación de los
aminoácidos exceptuado la Cisteína la que tiene una
significación mayor que 0.05, tenemos aquí el mejor
porciento de clasificación presente en la Leucina,
Tabla 3.2.4.2 y el que mejor significación presenta
Ácido Aspártico, por lo
que aparece en el nodo principal del árbol, Figura 3.2.4.1,
donde además aparecen en nodos secundarios la Isolecina,
Ácido Glutámico y Triptófano aminoácidos con
buena significación y buen porciento de clasificación.
En la base de datos extendida con una validación del 70% de
la muestra los resultados no son aceptables Tabla 3.2.4.3, pero
fueron usados para la comparación con otro clasificador.
Tabla 3.2.4.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Histidina | 0.000313443 | 96,7 |
Tirosina | 4.26129E-05 | 94 |
Glutamina | 4.56215E-06 | 96 |
Fenilalanina | 7.25884E-07 | 97 |
Serina | 1.23944E-07 | 93,7 |
Alanina | 2.88E-08 | 94,7 |
Glicina | 2.22134E-09 | 96 |
Valina | 1.14447E-09 | 96,3 |
Isoleucina | 9.30623E-10 | 95 |
Página anterior | Volver al principio del trabajo | Página siguiente |