Página anterior Volver al principio del trabajoPágina siguiente 

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 7)


Partes: 1, 2, 3, 4, 5, 6, 7, 8


Ácido Glutámico

5.42E-24

96

Fenilalanina

5.41845E-24

95

Isoleucina

5.41845E-24

96

Alanina

1.28041E-24

96

Glutamina

4.21E-25

97

Lisina

1.33286E-26

96

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.3.2. Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada.

Figura 3.3.3.1 Árbol de Aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaeas y bacterias.

Tabla 3.3.3.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.3.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa en la Tabla 3.3.3.1.1 se puede ver que, el aminoácido tirosina es el único que no aparece en el método cuando entran todas las variables, que superan el test de tolerancia, mientras que cuando se ejecuta el método con la variante Stepwise solo intervienen seis aminoácidos.    

Mientras, en la Tabla 3.3.3.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

Los resultados de clasificación global no son estadísticamente diferentes para los métodos de obtención de las funciones discriminantes y para el método CHAID. Este hecho se ilustra en las curvas ROC obtenidas (Figura 3.3.3.1.1) y en la Tabla 3.3.3.1.3, en la que se muestra los indicadores de las áreas bajo la curva ROC. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, observamos que las diferencias no son significativas. En la Tabla 3.3.3.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.3.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

4.62486353

-

Cisteína

3.40866802

-

Ácido Aspártico

4.35329008

-

Ácido Glutámico

3.01312637

0.87285347

Fenilalanina

4.69645842

-

Glicina

4.75110106

-

Histidina

8.76823771

2.83974481

Isoleucina

4.40842095

-

Lisina

3.10784031

0.95375833

Leucina

3.62521345

-

Metionina

3.67463302

-

Asparagina

6.09094983

2.73620833

Prolina

2.35739495

-

Glutamina

6.27960072

2.3650078

Arginina

3.79944512

-

Serina

4.48932266

-

Treonina

4.5272397

-

Valina

3.02606723

-

Tirosina

-

3.71432475

Triptófano

2.84141122

-

(Constant)

242.335636

1.59086365

Tabla 3.3.3.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

25.143

100

100

0.981

1

0.038

231.714

6

0.000

Todas las variables

1

32.793

100

100

0.985

1

0.030

227.057

19

0.000

Tabla 3.3.3.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Bacteria (Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis CHAID)

0.970

0.020

0.000

0.931

1.000

Probabilidad Bacteria (Análisis Discriminante)

1.000

0.000

0.000

1.000

1.000

Figura 3.3.3.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.3.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

70 % base de datos extendida

 

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

97.3

97.5

98.7

100.0

 

 

Bacteria

97.3

100.0

100.0

98.7

97.3

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con CHAID

 

 

 

70 % base de datos extendida

 

Archaea

100.0

94.6

95.1

97.4

100.0

 

 

Bacteria

94.6

100.0

100.0

97.4

94.6

Validación externa

Archaea

100.0

92.3

91.7

95.8

100.0

 

 

Bacteria

92.3

100.0

100.0

95.8

92.3

1.8.4.   Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados e invertebrados.

El análisis realizado en esta taxa nos proporcionó los datos que aparecen la Tabla 3.3.4.1, donde podemos ver que el aminoácido Asparagina que alcanza mayor porciento de clasificación con validación cruzada. Mientras la Leucina es la de mayor significación aplicando este mismo método.       

Tabla 3.3.4.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.048974524

91,3

Ácido Glutámico

0.00427

92

Valina

0.001548906

89

Metionina

0.00087178

91,7

Fenilalanina

6.84314E-05

92,7

Lisina

6.33727E-05

91,7

Prolina

1.14097E-05

90,7

Arginina

9.60722E-06

90,7

Alanina

6.9889E-06

90,7

Histidina

4.03007E-06

90,7

Isoleucina

2.63794E-06

93

Treonina

9.61E-07

90,7

Cisteína

2.88813E-08

91

Glutamina

1.47E-09

94

Tirosina

9.34572E-10

92,3

Serina

1.80376E-10

93

Triptófano

7.40E-11

90,3

Ácido Aspártico

2.5637E-21

92,7

Asparagina

2.12837E-31

94,7

Leucina

5.6054E-32

92,3

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.4.2. Clasificación obtenida con método CHAID en la bases de datos curada con

validación cruzada.

Tabla 3.3.4.3. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.4.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

Con el análisis de discriminante realizado se obtinen los resultados que aparecen en la Tabla 3.3.4.1.1 donde se presentan las funciones discriminantes obtenidas por el método Stepwise minimizando la Lambda de Wilk y sin aplicar este método considerando que entren todas las que superen el test de tolerancia, en este caso como podemos observar solo una la tirosina no entra, mientra en el método de Stepwise solo participan 7 aminoácidos.

Mientras, en la Tabla 3.3.4.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

El hecho de que no haya diferencias estadísticamente detectables en los metodos de Discriminante y CHAID se ilustra en las curvas ROC obtenidas (Figura 3.3.4.1.1) y en la Tabla 3.3.4.1.3, donde aparecen los parámetros que describen las áreas bajo la curva ROC. Sin embargo, al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren que existen algunas diferencias entre los clasificadores. En la Tabla 3.3.4.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.4.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

-1.153408

1.3635172

Cisteína

0.6291342

-

Ácido Aspártico

-1.283027

1.3734601

Ácido Glutámico

1.3230351

-0.501296

Fenilalanina

0.4843401

-

Glicina

-0.091928

-

Histidina

0.8533897

-

Isoleucina

0.1842257

-

Lisina

0.11743

-

Leucina

1.0027172

-0.790415

Metionina

-2.053798

2.2627063

Asparagina

-1.582589

1.9864618

Prolina

0.7630663

-

Glutamina

-0.440902

-

Arginina

0.1671537

-

Serina

0.69771

-0.447447

Treonina

-0.036089

-

Valina

0.6549796

-

Tirosina

-

-

Triptófano

0.1301897

-

(Constant)

-6.046161

-10.44801

Tabla 3.3.4.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.364

100

100

0.878

1

0.229

209.965

7

0.000

Todas las variables

1

3.841

100

100

0.891

1

0.207

215.275

19

0.000

Tabla 3.3.4.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Vertebrados (Análisis Disc. Stepwise)

0.996

0.002

0.000

0.991

1.000

Probabilidad Vertebrados (Análisis CHAID)

0.945

0.017

0.000

0.912

0.978

Probabilidad Vertebrados (Análisis Disc. Todas)

0.990

0.007

0.000

0.977

1.000

Figura 3.3.4.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.4.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert

94.4

97.4

97.1

95.9

94.4

 

 

Invert

97.4

94.4

94.9

95.9

97.4

Validación  cruzada

Vert

93.1

96.1

95.7

94.6

93.1

 

 

Invert

96.1

93.1

93.6

94.6

96.1

Validación externa

Vert

96.4

95.8

96.4

96.2

96.4

 

 

Invert

95.8

96.4

95.8

96.2

95.8

Predicciones de los miembros del Grupo con Anl. Discriminante (Todas).

 

70 % base de datos extendida

Vert

95.8

97.4

97.2

96.6

95.8

 

 

Invert

97.4

95.8

96.1

96.6

97.4

Validación  cruzada

Vert

95.8

96.1

95.8

95.9

95.8

 

 

Invert

96.1

95.8

96.1

95.9

96.1

Validación externa

Vert

92.9

95.8

96.3

94.2

92.9

 

 

Invert

95.8

92.9

92.0

94.2

95.8

Predicciones de los miembros del Grupo con CHAID

 

 

 

70 % base de datos extendida

Vert

90.3

93.4

92.9

91.9

90.3

 

 

Invert

93.4

90.3

91.0

91.9

93.4

Validación externa

Vert

75.0

83.3

84.0

78.8

75.0

 

 

Invert

83.3

75.0

74.1

78.8

83.3

1.8.5.  Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados no mamíferos y mamíferos.

Cuando se aplica la técnica CHAID a vectores que expresan probabilidad de frecuencia en el uso de codones en estos dos grupos de organismos tan cercanos en los aspectos que los caracterizan desde el punto de vista evolutivo, los resultados obtenidos de la base de datos curada con una validación cruzada, Tabla 3.3.5.1, muestran que al igual que para las secuencias de aminoácidos la Metionina es la que mejor significación tiene, mientras que la Leucina es la de mayor porciento de clasificación. Podemos señalar que en este caso dos aminoácidos no alcanzan valores menores que 0.05 en su significación ellos son la Fenilalanina y el Ácido Glutámico. En la tabla 3.3.5.2, se observan los porcientos que se obtienen al realizar una validación del 70% de la base curada como entrenamiento con una validación externa con el resto de la base.

Tabla 3.3.5.1. Significación de los aminoácidos al ser utilizados como variables predictoras en la construcción de árboles de decisión y los porcientos de clasificación alcanzados.

AA

Sig.a

%clasificación

Glutamina

3.2514E-05

88,5

Valina

6.6791E-06

88,5

Cisteína

0.000192

87

Treonina

6.7907E-06

90

Tirosina

0.002

87,5

Prolina

0.004356

87

Histidina

0.000184

89

Isoleucina

0.031889439

88,5

Arginina

0.003529707

90

Lisina

0.001127208

91,5

Glicina

0.000644454

89

Ácido Aspártico

2.9716E-05

91

Triptófano

3.39E-06

89

Leucina

1.36446E-08

93,5

Asparagina

1.33436E-08

91

Serina

4.77861E-09

90

Alanina

1.76108E-10

90

Metionina

6.9716E-11

90,5

aSig. Significación del estadígrafo de razón verosimilitud Chi-cuadrado. Por simplificación se ha utilizado el simbolismo del SPSS para la notación científica, es decir, por ejemplo, el símbolo E-05 significa 10-5.

Tabla 3.3.5.2. Clasificación obtenida con método CHAID en la base de datos tomando aleatoriamente el 70% de la base como entrenamiento y el resto usado en validación externa.

1.8.5.1.            Análisis de Discriminante y la evaluación del desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa, Tabla 3.3.5.1.1, donde se describen las funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise, para el cual solo intervienen 8 aminoácidos. Se pude señalar en el caso del aminoácido Tirosina no aparece en ninguno de los dos métodos aplicados.

 En la Tabla 3.3.5.1.2 se puede apreciar que la eficacia de las funciones discriminantes en la separación de los casos en grupos, expresada a través de las correlaciones canónicas, es similar para ambos procedimientos. Además, los valores de la Lambda de Wilk y la significación del test Chi-cuadrado indican que las capacidades discriminatorias de las funciones obtenidas por estos procedimientos son similares.

En las curvas ROC obtenidas (Figura 3.3.5.1.1), que el análisis Discriminante realizado es superior en sus dos variantes al CHAID y en la Tabla 3.3.5.1.3, en la que se muestra que los intervalos de confianza asimtóticos para 95% de confianza de las áreas bajo la curva ROC también se observan que los mejores indicadores se refieren a la técnica Discriminante. Al utilizar los parámetros derivados de la matríz de confusión para evaluar el desempeño de estos clasificadores, nos sugieren los mismos criterios que nos bridan las curvas ROC de los clasificadores. En la Tabla 3.3.5.1.4 se muestran los valores de los parámetros mencionados.

Tabla 3.3.5.1.1. Funciones discriminantes canónicas obtenidas con la introducción de todos los aminoácidos que satisfacen el test de tolerancia y con el método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

0.2269488

0.8519413

Cisteína

0.9328881

-

Ácido Aspártico

1.8950519

-0.852225

Ácido Glutámico

0.7074865

-

Fenilalanina

1.5171704

-

Glicina

0.6465456

-

Histidina

1.2819573

-

Isoleucina

0.077029

0.5565968

Lisina

0.7912264

-

Leucina

-0.291125

1.0783397

Metionina

3.6952632

-2.950158

Asparagina

1.6428562

-

Prolina

-0.516774

1.4921253

Glutamina

0.7912194

-

Arginina

1.2166805

-

Serina

1.6386476

-1.005287

Treonina

0.70664

-

Valina

0.852321

-

Tirosina

-

-

Triptófano

-0.898853

1.6170774

(Constant)

-47.3287

-5.956623

Tabla 3.3.5.1.2. Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

2.199

100

100

0.829

1

0.313

162.796

8

0.000

Todas las variables

1

2.411

100

100

0.841

1

0.293

165.020

19

0.000

Tabla 3.3.5.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Mamifero (Análisis CHAID)

0.949

0.017

0.000

0.915

0.982

Probabilidad Mamifero (Análisis Disc. Todas)

0.989

0.005

0.000

0.978

0.999

Probabilidad Mamifero (Análisis Disc. Stepwise)

0.985

0.007

0.000

0.970

0.999

Figura 3.3.5.1.1 Curvas ROC obtenidas con los dos métodos de discriminante y con el método CHAID.

Tabla 3.3.5.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl. Discriminante (Stpw).

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert No Mamif

91.7

94.6

94.3

93.2

91.7

 

 

Mamiferos

94.6

91.7

92.1

93.2

94.6

Validación  cruzada

Vert No Mamif

90.3

94.6

94.2

92.5

90.3


Partes: 1, 2, 3, 4, 5, 6, 7, 8


 Página anterior Volver al principio del trabajoPágina siguiente 

Comentarios


Trabajos relacionados

Ver mas trabajos de Biologia

 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.


Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.