Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 7)
Ácido Glutámico | 5.42E-24 | 96 |
Fenilalanina | 5.41845E-24 | 95 |
Isoleucina | 5.41845E-24 | 96 |
Alanina | 1.28041E-24 | 96 |
Glutamina | 4.21E-25 | 97 |
Lisina | 1.33286E-26 | 96 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.
Tabla 3.3.3.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.
Figura 3.3.3.1 Árbol de Aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaeas y
bacterias.
Tabla 3.3.3.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.
1.8.3.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.
Con el análisis de discriminante realizado en esta taxa
en la Tabla 3.3.3.1.1 se puede ver que, el aminoácido
tirosina es el único que no aparece en el método cuando
entran todas las variables, que superan el test de tolerancia,
mientras que cuando se ejecuta el método con la variante
Stepwise solo intervienen seis aminoácidos.
Mientras, en la Tabla 3.3.3.1.2 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.
Los resultados de clasificación global no son
estadísticamente diferentes para los métodos de
obtención de las funciones discriminantes y para el
método CHAID. Este hecho se ilustra en las curvas ROC
obtenidas (Figura 3.3.3.1.1) y en la Tabla 3.3.3.1.3, en la que
se muestra los indicadores de las áreas bajo la curva ROC.
Al utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, observamos que las diferencias no son
significativas. En la Tabla 3.3.3.1.4 se muestran los valores de
los parámetros mencionados.
Tabla 3.3.3.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | 4.62486353 | – |
Cisteína | 3.40866802 | – |
Ácido Aspártico | 4.35329008 | – |
Ácido Glutámico | 3.01312637 | 0.87285347 |
Fenilalanina | 4.69645842 | – |
Glicina | 4.75110106 | – |
Histidina | 8.76823771 | 2.83974481 |
Isoleucina | 4.40842095 | – |
Lisina | 3.10784031 | 0.95375833 |
Leucina | 3.62521345 | – |
Metionina | 3.67463302 | – |
Asparagina | 6.09094983 | 2.73620833 |
Prolina | 2.35739495 | – |
Glutamina | 6.27960072 | 2.3650078 |
Arginina | 3.79944512 | – |
Serina | 4.48932266 | – |
Treonina | 4.5272397 | – |
Valina | 3.02606723 | – |
Tirosina | – | 3.71432475 |
Triptófano | 2.84141122 | – |
(Constant) | 242.335636 | 1.59086365 |
Tabla 3.3.3.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 25.143 | 100 | 100 | 0.981 | 1 | 0.038 | 231.714 | 6 | 0.000 |
Todas las variables | |||||||||
1 | 32.793 | 100 | 100 | 0.985 | 1 | 0.030 | 227.057 | 19 | 0.000 |
Tabla 3.3.3.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Bacteria (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Probabilidad Bacteria (Análisis | 0.970 | 0.020 | 0.000 | 0.931 | 1.000 |
Probabilidad Bacteria (Análisis | 1.000 | 0.000 | 0.000 | 1.000 | 1.000 |
Figura 3.3.3.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.
Tabla 3.3.3.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. |
| ||||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación externa | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con Anl. | |||||||
70 % base de datos extendida |
| Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Validación cruzada | Archaea | 100.0 | 97.3 | 97.5 | 98.7 | 100.0 | |
|
| Bacteria | 97.3 | 100.0 | 100.0 | 98.7 | 97.3 |
Validación externa | Archaea | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | |
|
| Bacteria | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
Predicciones de los miembros del Grupo con |
|
|
| ||||
70 % base de datos extendida |
| Archaea | 100.0 | 94.6 | 95.1 | 97.4 | 100.0 |
|
| Bacteria | 94.6 | 100.0 | 100.0 | 97.4 | 94.6 |
Validación externa | Archaea | 100.0 | 92.3 | 91.7 | 95.8 | 100.0 | |
|
| Bacteria | 92.3 | 100.0 | 100.0 | 95.8 | 92.3 |
1.8.4. Aminoácidos asociados mediante
el uso de codones con las clasificaciones taxonómicas en
vertebrados e invertebrados.
El análisis realizado en esta taxa nos proporcionó
los datos que aparecen la Tabla 3.3.4.1, donde podemos ver que el
aminoácido Asparagina que alcanza mayor porciento de
clasificación con validación cruzada. Mientras la
Leucina es la de mayor significación aplicando este mismo
método.
Tabla 3.3.4.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig. | %clasificación |
Glicina | 0.048974524 | 91,3 |
Ácido Glutámico | 0.00427 | 92 |
Valina | 0.001548906 | 89 |
Metionina | 0.00087178 | 91,7 |
Fenilalanina | 6.84314E-05 | 92,7 |
Lisina | 6.33727E-05 | 91,7 |
Prolina | 1.14097E-05 | 90,7 |
Arginina | 9.60722E-06 | 90,7 |
Alanina | 6.9889E-06 | 90,7 |
Histidina | 4.03007E-06 | 90,7 |
Isoleucina | 2.63794E-06 | 93 |
Treonina | 9.61E-07 | 90,7 |
Cisteína | 2.88813E-08 | 91 |
Glutamina | 1.47E-09 | 94 |
Tirosina | 9.34572E-10 | 92,3 |
Serina | 1.80376E-10 | 93 |
Triptófano | 7.40E-11 | 90,3 |
Ácido Aspártico | 2.5637E-21 | 92,7 |
Asparagina | 2.12837E-31 | 94,7 |
Leucina | 5.6054E-32 | 92,3 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.
Tabla 3.3.4.2. Clasificación obtenida con
método CHAID en la bases de datos curada con
validación cruzada.
Tabla 3.3.4.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.
1.8.4.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.
Con el análisis de discriminante realizado se obtinen los
resultados que aparecen en la Tabla 3.3.4.1.1 donde se presentan
las funciones discriminantes obtenidas por el método
Stepwise minimizando la Lambda de Wilk y sin aplicar este
método considerando que entren todas las que superen el test
de tolerancia, en este caso como podemos observar solo una la
tirosina no entra, mientra en el método de Stepwise solo
participan 7 aminoácidos.
Mientras, en la Tabla 3.3.4.1.2 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.
El hecho de que no haya diferencias estadísticamente
detectables en los metodos de Discriminante y CHAID se ilustra en
las curvas ROC obtenidas (Figura 3.3.4.1.1) y en la Tabla
3.3.4.1.3, donde aparecen los parámetros que describen las
áreas bajo la curva ROC. Sin embargo, al utilizar los
parámetros derivados de la matríz de confusión
para evaluar el desempeño de estos clasificadores, nos
sugieren que existen algunas diferencias entre los
clasificadores. En la Tabla 3.3.4.1.4 se muestran los valores de
los parámetros mencionados.
Tabla 3.3.4.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácidos | Función discriminante | |
| Todas | Stepwise |
Alanina | -1.153408 | 1.3635172 |
Cisteína | 0.6291342 | – |
Ácido Aspártico | -1.283027 | 1.3734601 |
Ácido Glutámico | 1.3230351 | -0.501296 |
Fenilalanina | 0.4843401 | – |
Glicina | -0.091928 | – |
Histidina | 0.8533897 | – |
Isoleucina | 0.1842257 | – |
Lisina | 0.11743 | – |
Leucina | 1.0027172 | -0.790415 |
Metionina | -2.053798 | 2.2627063 |
Asparagina | -1.582589 | 1.9864618 |
Prolina | 0.7630663 | – |
Glutamina | -0.440902 | – |
Arginina | 0.1671537 | – |
Serina | 0.69771 | -0.447447 |
Treonina | -0.036089 | – |
Valina | 0.6549796 | – |
Tirosina | – | – |
Triptófano | 0.1301897 | – |
(Constant) | -6.046161 | -10.44801 |
Tabla 3.3.4.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 3.364 | 100 | 100 | 0.878 | 1 | 0.229 | 209.965 | 7 | 0.000 |
Todas las variables | |||||||||
1 | 3.841 | 100 | 100 | 0.891 | 1 | 0.207 | 215.275 | 19 | 0.000 |
Tabla 3.3.4.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Vertebrados | 0.996 | 0.002 | 0.000 | 0.991 | 1.000 |
Probabilidad Vertebrados | 0.945 | 0.017 | 0.000 | 0.912 | 0.978 |
Probabilidad Vertebrados | 0.990 | 0.007 | 0.000 | 0.977 | 1.000 |
Figura 3.3.4.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.
Tabla 3.3.4.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. |
| ||||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Vert | 94.4 | 97.4 | 97.1 | 95.9 | 94.4 | |
|
| Invert | 97.4 | 94.4 | 94.9 | 95.9 | 97.4 |
Validación cruzada | Vert | 93.1 | 96.1 | 95.7 | 94.6 | 93.1 | |
|
| Invert | 96.1 | 93.1 | 93.6 | 94.6 | 96.1 |
Validación externa | Vert | 96.4 | 95.8 | 96.4 | 96.2 | 96.4 | |
|
| Invert | 95.8 | 96.4 | 95.8 | 96.2 | 95.8 |
Predicciones de los miembros del Grupo con Anl. |
| ||||||
70 % base de datos extendida | Vert | 95.8 | 97.4 | 97.2 | 96.6 | 95.8 | |
|
| Invert | 97.4 | 95.8 | 96.1 | 96.6 | 97.4 |
Validación cruzada | Vert | 95.8 | 96.1 | 95.8 | 95.9 | 95.8 | |
|
| Invert | 96.1 | 95.8 | 96.1 | 95.9 | 96.1 |
Validación externa | Vert | 92.9 | 95.8 | 96.3 | 94.2 | 92.9 | |
|
| Invert | 95.8 | 92.9 | 92.0 | 94.2 | 95.8 |
Predicciones de los miembros del Grupo con |
|
|
| ||||
70 % base de datos extendida | Vert | 90.3 | 93.4 | 92.9 | 91.9 | 90.3 | |
|
| Invert | 93.4 | 90.3 | 91.0 | 91.9 | 93.4 |
Validación externa | Vert | 75.0 | 83.3 | 84.0 | 78.8 | 75.0 | |
|
| Invert | 83.3 | 75.0 | 74.1 | 78.8 | 83.3 |
1.8.5. Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
vertebrados no mamíferos y mamíferos.
Cuando se aplica la técnica CHAID a vectores que expresan
probabilidad de frecuencia en el uso de codones en estos dos
grupos de organismos tan cercanos en los aspectos que los
caracterizan desde el punto de vista evolutivo, los resultados
obtenidos de la base de datos curada con una validación
cruzada, Tabla 3.3.5.1, muestran que al igual que para las
secuencias de aminoácidos la Metionina es la que mejor
significación tiene, mientras que la Leucina es la de mayor
porciento de clasificación. Podemos señalar que en este
caso dos aminoácidos no alcanzan valores menores que 0.05 en
su significación ellos son la Fenilalanina y el Ácido
Glutámico. En la tabla 3.3.5.2, se observan los porcientos
que se obtienen al realizar una validación del 70% de la
base curada como entrenamiento con una validación externa
con el resto de la base.
Tabla 3.3.5.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.
AA | Sig.a | %clasificación |
Glutamina | 3.2514E-05 | 88,5 |
Valina | 6.6791E-06 | 88,5 |
Cisteína | 0.000192 | 87 |
Treonina | 6.7907E-06 | 90 |
Tirosina | 0.002 | 87,5 |
Prolina | 0.004356 | 87 |
Histidina | 0.000184 | 89 |
Isoleucina | 0.031889439 | 88,5 |
Arginina | 0.003529707 | 90 |
Lisina | 0.001127208 | 91,5 |
Glicina | 0.000644454 | 89 |
Ácido Aspártico | 2.9716E-05 | 91 |
Triptófano | 3.39E-06 | 89 |
Leucina | 1.36446E-08 | 93,5 |
Asparagina | 1.33436E-08 | 91 |
Serina | 4.77861E-09 | 90 |
Alanina | 1.76108E-10 | 90 |
Metionina | 6.9716E-11 | 90,5 |
aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.
Tabla 3.3.5.2. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.
1.8.5.1.
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.
El análisis de discriminante realizado en esta taxa,
Tabla 3.3.5.1.1, donde se describen las funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise, para el cual solo intervienen 8
aminoácidos. Se pude señalar en el caso del
aminoácido Tirosina no aparece en ninguno de los dos
métodos aplicados.
En la Tabla 3.3.5.1.2 se puede apreciar que la eficacia
de las funciones discriminantes en la separación de los
casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.
En las curvas ROC obtenidas (Figura 3.3.5.1.1), que el
análisis Discriminante realizado es superior en sus dos
variantes al CHAID y en la Tabla 3.3.5.1.3, en la que se muestra
que los intervalos de confianza asimtóticos para 95% de
confianza de las áreas bajo la curva ROC también se
observan que los mejores indicadores se refieren a la
técnica Discriminante. Al utilizar los parámetros
derivados de la matríz de confusión para evaluar el
desempeño de estos clasificadores, nos sugieren los mismos
criterios que nos bridan las curvas ROC de los clasificadores. En
la Tabla 3.3.5.1.4 se muestran los valores de los parámetros
mencionados.
Tabla 3.3.5.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.
Aminoácidos | Función discriminante | |
Todas | Stepwise | |
Alanina | 0.2269488 | 0.8519413 |
Cisteína | 0.9328881 | – |
Ácido Aspártico | 1.8950519 | -0.852225 |
Ácido Glutámico | 0.7074865 | – |
Fenilalanina | 1.5171704 | – |
Glicina | 0.6465456 | – |
Histidina | 1.2819573 | – |
Isoleucina | 0.077029 | 0.5565968 |
Lisina | 0.7912264 | – |
Leucina | -0.291125 | 1.0783397 |
Metionina | 3.6952632 | -2.950158 |
Asparagina | 1.6428562 | – |
Prolina | -0.516774 | 1.4921253 |
Glutamina | 0.7912194 | – |
Arginina | 1.2166805 | – |
Serina | 1.6386476 | -1.005287 |
Treonina | 0.70664 | – |
Valina | 0.852321 | – |
Tirosina | – | – |
Triptófano | -0.898853 | 1.6170774 |
(Constant) | -47.3287 | -5.956623 |
Tabla 3.3.5.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.
Función | Valor principal | % de Varianza | % Var. Acum. | Corr. Canónica | Función | Lambda de Wilks | Chi cuadrado | g.l. | Sig. |
Stepwise | |||||||||
1 | 2.199 | 100 | 100 | 0.829 | 1 | 0.313 | 162.796 | 8 | 0.000 |
Todas las variables | |||||||||
1 | 2.411 | 100 | 100 | 0.841 | 1 | 0.293 | 165.020 | 19 | 0.000 |
Tabla 3.3.5.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.
Resultados del Análisis | Área | Error Estándar | Sig. Asintótica | Intervalo de confianza | |
Límite inferior | Límite superior | ||||
Probabilidad Mamifero (Análisis | 0.949 | 0.017 | 0.000 | 0.915 | 0.982 |
Probabilidad Mamifero (Análisis | 0.989 | 0.005 | 0.000 | 0.978 | 0.999 |
Probabilidad Mamifero (Análisis | 0.985 | 0.007 | 0.000 | 0.970 | 0.999 |
Figura 3.3.5.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.
Tabla 3.3.5.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.
Predicciones de los miembros del Grupo con Anl. |
|
| |||||
|
| Grupos | Razón de TP | Razón de TN | Prec. | Exac. | % de Clasf. |
70 % base de datos extendida | Vert No Mamif | 91.7 | 94.6 | 94.3 | 93.2 | 91.7 | |
|
| Mamiferos | 94.6 | 91.7 | 92.1 | 93.2 | 94.6 |
Validación cruzada | Vert No Mamif | 90.3 | 94.6 | 94.2 | 92.5 | 90.3 |
Página anterior | Volver al principio del trabajo | Página siguiente |