Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 7)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

Ácido Glutámico

5.42E-24

96

Fenilalanina

5.41845E-24

95

Isoleucina

5.41845E-24

96

Alanina

1.28041E-24

96

Glutamina

4.21E-25

97

Lisina

1.33286E-26

96

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.3.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Figura 3.3.3.1 Árbol de Aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaeas y
bacterias.

Tabla 3.3.3.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

1.8.3.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa
en la Tabla 3.3.3.1.1 se puede ver que, el aminoácido
tirosina es el único que no aparece en el método cuando
entran todas las variables, que superan el test de tolerancia,
mientras que cuando se ejecuta el método con la variante
Stepwise solo intervienen seis aminoácidos.  
 

Mientras, en la Tabla 3.3.3.1.2 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.

Los resultados de clasificación global no son
estadísticamente diferentes para los métodos de
obtención de las funciones discriminantes y para el
método CHAID. Este hecho se ilustra en las curvas ROC
obtenidas (Figura 3.3.3.1.1) y en la Tabla 3.3.3.1.3, en la que
se muestra los indicadores de las áreas bajo la curva ROC.
Al utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, observamos que las diferencias no son
significativas. En la Tabla 3.3.3.1.4 se muestran los valores de
los parámetros mencionados.

Tabla 3.3.3.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

4.62486353

Cisteína

3.40866802

Ácido Aspártico

4.35329008

Ácido Glutámico

3.01312637

0.87285347

Fenilalanina

4.69645842

Glicina

4.75110106

Histidina

8.76823771

2.83974481

Isoleucina

4.40842095

Lisina

3.10784031

0.95375833

Leucina

3.62521345

Metionina

3.67463302

Asparagina

6.09094983

2.73620833

Prolina

2.35739495

Glutamina

6.27960072

2.3650078

Arginina

3.79944512

Serina

4.48932266

Treonina

4.5272397

Valina

3.02606723

Tirosina

3.71432475

Triptófano

2.84141122

(Constant)

242.335636

1.59086365

Tabla 3.3.3.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

25.143

100

100

0.981

1

0.038

231.714

6

0.000

Todas las variables

1

32.793

100

100

0.985

1

0.030

227.057

19

0.000

Tabla 3.3.3.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Bacteria (Análisis
Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis
CHAID)

0.970

0.020

0.000

0.931

1.000

Probabilidad Bacteria (Análisis
Discriminante)

1.000

0.000

0.000

1.000

1.000

Figura 3.3.3.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.3.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

70 % base de datos extendida

 

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Validación  cruzada

Archaea

100.0

97.3

97.5

98.7

100.0

 

 

Bacteria

97.3

100.0

100.0

98.7

97.3

Validación externa

Archaea

100.0

100.0

100.0

100.0

100.0

 

 

Bacteria

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con
CHAID

 

 

 

70 % base de datos extendida

 

Archaea

100.0

94.6

95.1

97.4

100.0

 

 

Bacteria

94.6

100.0

100.0

97.4

94.6

Validación externa

Archaea

100.0

92.3

91.7

95.8

100.0

 

 

Bacteria

92.3

100.0

100.0

95.8

92.3

1.8.4.   Aminoácidos asociados mediante
el uso de codones con las clasificaciones taxonómicas en
vertebrados e invertebrados.

El análisis realizado en esta taxa nos proporcionó
los datos que aparecen la Tabla 3.3.4.1, donde podemos ver que el
aminoácido Asparagina que alcanza mayor porciento de
clasificación con validación cruzada. Mientras la
Leucina es la de mayor significación aplicando este mismo
método.       

Tabla 3.3.4.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.048974524

91,3

Ácido Glutámico

0.00427

92

Valina

0.001548906

89

Metionina

0.00087178

91,7

Fenilalanina

6.84314E-05

92,7

Lisina

6.33727E-05

91,7

Prolina

1.14097E-05

90,7

Arginina

9.60722E-06

90,7

Alanina

6.9889E-06

90,7

Histidina

4.03007E-06

90,7

Isoleucina

2.63794E-06

93

Treonina

9.61E-07

90,7

Cisteína

2.88813E-08

91

Glutamina

1.47E-09

94

Tirosina

9.34572E-10

92,3

Serina

1.80376E-10

93

Triptófano

7.40E-11

90,3

Ácido Aspártico

2.5637E-21

92,7

Asparagina

2.12837E-31

94,7

Leucina

5.6054E-32

92,3

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.4.2. Clasificación obtenida con
método CHAID en la bases de datos curada con

validación cruzada.

Tabla 3.3.4.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

1.8.4.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis de discriminante realizado se obtinen los
resultados que aparecen en la Tabla 3.3.4.1.1 donde se presentan
las funciones discriminantes obtenidas por el método
Stepwise minimizando la Lambda de Wilk y sin aplicar este
método considerando que entren todas las que superen el test
de tolerancia, en este caso como podemos observar solo una la
tirosina no entra, mientra en el método de Stepwise solo
participan 7 aminoácidos.

Mientras, en la Tabla 3.3.4.1.2 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.

El hecho de que no haya diferencias estadísticamente
detectables en los metodos de Discriminante y CHAID se ilustra en
las curvas ROC obtenidas (Figura 3.3.4.1.1) y en la Tabla
3.3.4.1.3, donde aparecen los parámetros que describen las
áreas bajo la curva ROC. Sin embargo, al utilizar los
parámetros derivados de la matríz de confusión
para evaluar el desempeño de estos clasificadores, nos
sugieren que existen algunas diferencias entre los
clasificadores. En la Tabla 3.3.4.1.4 se muestran los valores de
los parámetros mencionados.

Tabla 3.3.4.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

-1.153408

1.3635172

Cisteína

0.6291342

Ácido Aspártico

-1.283027

1.3734601

Ácido Glutámico

1.3230351

-0.501296

Fenilalanina

0.4843401

Glicina

-0.091928

Histidina

0.8533897

Isoleucina

0.1842257

Lisina

0.11743

Leucina

1.0027172

-0.790415

Metionina

-2.053798

2.2627063

Asparagina

-1.582589

1.9864618

Prolina

0.7630663

Glutamina

-0.440902

Arginina

0.1671537

Serina

0.69771

-0.447447

Treonina

-0.036089

Valina

0.6549796

Tirosina

Triptófano

0.1301897

(Constant)

-6.046161

-10.44801

Tabla 3.3.4.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.364

100

100

0.878

1

0.229

209.965

7

0.000

Todas las variables

1

3.841

100

100

0.891

1

0.207

215.275

19

0.000

Tabla 3.3.4.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Vertebrados
(Análisis Disc. Stepwise)

0.996

0.002

0.000

0.991

1.000

Probabilidad Vertebrados
(Análisis CHAID)

0.945

0.017

0.000

0.912

0.978

Probabilidad Vertebrados
(Análisis Disc. Todas)

0.990

0.007

0.000

0.977

1.000

Figura 3.3.4.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.4.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert

94.4

97.4

97.1

95.9

94.4

 

 

Invert

97.4

94.4

94.9

95.9

97.4

Validación  cruzada

Vert

93.1

96.1

95.7

94.6

93.1

 

 

Invert

96.1

93.1

93.6

94.6

96.1

Validación externa

Vert

96.4

95.8

96.4

96.2

96.4

 

 

Invert

95.8

96.4

95.8

96.2

95.8

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

70 % base de datos extendida

Vert

95.8

97.4

97.2

96.6

95.8

 

 

Invert

97.4

95.8

96.1

96.6

97.4

Validación  cruzada

Vert

95.8

96.1

95.8

95.9

95.8

 

 

Invert

96.1

95.8

96.1

95.9

96.1

Validación externa

Vert

92.9

95.8

96.3

94.2

92.9

 

 

Invert

95.8

92.9

92.0

94.2

95.8

Predicciones de los miembros del Grupo con
CHAID

 

 

 

70 % base de datos extendida

Vert

90.3

93.4

92.9

91.9

90.3

 

 

Invert

93.4

90.3

91.0

91.9

93.4

Validación externa

Vert

75.0

83.3

84.0

78.8

75.0

 

 

Invert

83.3

75.0

74.1

78.8

83.3

1.8.5.  Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
vertebrados no mamíferos y mamíferos.

Cuando se aplica la técnica CHAID a vectores que expresan
probabilidad de frecuencia en el uso de codones en estos dos
grupos de organismos tan cercanos en los aspectos que los
caracterizan desde el punto de vista evolutivo, los resultados
obtenidos de la base de datos curada con una validación
cruzada, Tabla 3.3.5.1, muestran que al igual que para las
secuencias de aminoácidos la Metionina es la que mejor
significación tiene, mientras que la Leucina es la de mayor
porciento de clasificación. Podemos señalar que en este
caso dos aminoácidos no alcanzan valores menores que 0.05 en
su significación ellos son la Fenilalanina y el Ácido
Glutámico. En la tabla 3.3.5.2, se observan los porcientos
que se obtienen al realizar una validación del 70% de la
base curada como entrenamiento con una validación externa
con el resto de la base.

Tabla 3.3.5.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.a

%clasificación

Glutamina

3.2514E-05

88,5

Valina

6.6791E-06

88,5

Cisteína

0.000192

87

Treonina

6.7907E-06

90

Tirosina

0.002

87,5

Prolina

0.004356

87

Histidina

0.000184

89

Isoleucina

0.031889439

88,5

Arginina

0.003529707

90

Lisina

0.001127208

91,5

Glicina

0.000644454

89

Ácido Aspártico

2.9716E-05

91

Triptófano

3.39E-06

89

Leucina

1.36446E-08

93,5

Asparagina

1.33436E-08

91

Serina

4.77861E-09

90

Alanina

1.76108E-10

90

Metionina

6.9716E-11

90,5

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.5.2. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

1.8.5.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa,
Tabla 3.3.5.1.1, donde se describen las funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise, para el cual solo intervienen 8
aminoácidos. Se pude señalar en el caso del
aminoácido Tirosina no aparece en ninguno de los dos
métodos aplicados.

 En la Tabla 3.3.5.1.2 se puede apreciar que la eficacia
de las funciones discriminantes en la separación de los
casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares.

En las curvas ROC obtenidas (Figura 3.3.5.1.1), que el
análisis Discriminante realizado es superior en sus dos
variantes al CHAID y en la Tabla 3.3.5.1.3, en la que se muestra
que los intervalos de confianza asimtóticos para 95% de
confianza de las áreas bajo la curva ROC también se
observan que los mejores indicadores se refieren a la
técnica Discriminante. Al utilizar los parámetros
derivados de la matríz de confusión para evaluar el
desempeño de estos clasificadores, nos sugieren los mismos
criterios que nos bridan las curvas ROC de los clasificadores. En
la Tabla 3.3.5.1.4 se muestran los valores de los parámetros
mencionados.

Tabla 3.3.5.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

0.2269488

0.8519413

Cisteína

0.9328881

Ácido Aspártico

1.8950519

-0.852225

Ácido Glutámico

0.7074865

Fenilalanina

1.5171704

Glicina

0.6465456

Histidina

1.2819573

Isoleucina

0.077029

0.5565968

Lisina

0.7912264

Leucina

-0.291125

1.0783397

Metionina

3.6952632

-2.950158

Asparagina

1.6428562

Prolina

-0.516774

1.4921253

Glutamina

0.7912194

Arginina

1.2166805

Serina

1.6386476

-1.005287

Treonina

0.70664

Valina

0.852321

Tirosina

Triptófano

-0.898853

1.6170774

(Constant)

-47.3287

-5.956623

Tabla 3.3.5.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

2.199

100

100

0.829

1

0.313

162.796

8

0.000

Todas las variables

1

2.411

100

100

0.841

1

0.293

165.020

19

0.000

Tabla 3.3.5.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Mamifero (Análisis
CHAID)

0.949

0.017

0.000

0.915

0.982

Probabilidad Mamifero (Análisis
Disc. Todas)

0.989

0.005

0.000

0.978

0.999

Probabilidad Mamifero (Análisis
Disc. Stepwise)

0.985

0.007

0.000

0.970

0.999

Figura 3.3.5.1.1 Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.5.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert No Mamif

91.7

94.6

94.3

93.2

91.7

 

 

Mamiferos

94.6

91.7

92.1

93.2

94.6

Validación  cruzada

Vert No Mamif

90.3

94.6

94.2

92.5

90.3

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter