Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 5)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

Metionina

2.24192E-15

95,7

Ácido Glutámico

6.51854E-18

96,3

Prolina

3.3356E-18

95

Lisina

1.04851E-26

95,7

Asparagina

6.24155E-27

97

Treonina

2.84273E-29

96,3

Leucina

1.56097E-35

98

Arginina

3.50044E-39

97,3

Triptófano

8.15877E-47

95,3

Ácido Aspártico

5.74625E-53

97

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.2.4.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Figura 3.2.4.1A. Árbol de Aminoácidos
asociados con los resultados en la base de datos curada con
validación cruzada en las clasificaciones taxonómicas
de vertebrados e invertebrados.

Figura 3.2.4.1.B Árbol de Aminoácidos
asociados con los resultados en la base de datos curada con
validación cruzada en las clasificaciones taxonómicas
de vertebrados e invertebrados.

Tabla 3.2.4.3. Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa.

1.7.4.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

En esta taxa los resultados obtenidos con el CHAID, en la base
extendida con una validación del 70% no fueron
satisfactorios como fue discutido anteriormene. Con el
método de Discriminante en la Tabla 3.2.4.1.1 se puede ver
que en el caso del aminoácido Tirosina que no se incluye en
el método Stepwise poseen correlación mayor que los
demás incluídos, Tabla 3.2.4.1.2, el aminoácido
Prolina que no se incluye para el caso donde se incluyen todos es
el que presenta mayor valor de correlación.

Mientras, en la Tabla 3.2.4.1.3 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos. Los valores
de la Lambda de Wilk y la significación del test
Chi-cuadrado indican que las capacidades discriminatorias de las
funciones obtenidas por estos procedimientos son similares.

Tabla 3.2.4.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Aminoácido

Función discriminante

Prolina a

-0.276

Tirosina

-0.197

Ácido Aspártico

0.193

Treonina a

-0.181

Asparagina

0.166

Valina

0.124

Arginina

0.118

Serina

-0.113

Triptófano a

-0.112

Glicina

0.106

Leucina a

-0.095

Fenilalanina

0.061

Glutamina a

-0.051

Cisteína a

-0.049

Lisina a

0.039

Histidina a

0.031

Metionina

-0.008

Isoleucina a

-0.006

Alanina

0.003

Ácido Glutámico

-0.002

Tabla 3.2.4.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

3.33494748

1.13469444

Cisteína

1.81042056

Ácido Aspártico

5.96872564

4.72640862

Ácido Glutámico

0.29380426

-1.42722167

Fenilalanina

3.34144515

1.54141778

Glicina

0.81918569

0.63452814

Histidina

0.95372764

Isoleucina

2.96069855

Lisina

1.74121503

Leucina

1.04259695

Metionina

5.07536269

3.45884755

Asparagina

3.99586851

2.83456292

Prolina

2.01832702

Glutamina

1.89329619

Arginina

4.79244112

2.67161885

Serina

3.28271896

1.41811029

Treonina

1.25945216

Valina

3.05596037

1.45824349

Tirosina

-2.0230344

Triptófano

2.51040997

(Constant)

148.707461

-44.24496

Los resultados de clasificación global para los
métodos de obtención de las funciones discriminantes y
para el método CHAID se observan en las curvas ROC obtenidas
(Figura 3.2.4.1.1) y en la Tabla 3.2.4.1.4 de área bajo la
curva donde la superioridad del Discriminante queda clara en los
datos de intervalos de confianza asintóticos para 95%,
quedando totalmente incluído el intervalo obtenido del CHAID
en el obtenido del Discriminante.

Tabla 3.2.4.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

6.659

100

100

0.932

1

0.131

286.037

11

0.000

Todas las variables

1

7.146

100

100

0.937

1

0.123

286.316

19

0.000

Tabla 3.2.4.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Vertebrado
(Análisis Disc. Stepwise)

1.000

0.001

0.000

0.998

1.000

Probabilidad Vertebrado
(Análisis CHAID)

0.951

0.014

0.000

0.924

0.978

Probabilidad Vertebrado
(Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Figura 3.2.4.1.1Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID para
vertebrados.

De los parámetros de la matriz de confusión Tabla
3.2.4.1.5, se muestra también que la diferencia rádica
en el hecho que el método de Discriminante muestra valores
superiores en todos los parámetros.

Tabla 3.2.4.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación  cruzada

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación externa

Vert

100.0

95.8

96.6

63.8

100.0

 

 

Invert

95.8

100.0

45.1

63.8

95.8

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

 

70 % base de datos extendida

Vert

98.6

98.7

98.6

98.6

98.6

 

 

Invert

98.7

98.6

98.7

98.6

98.7

Validación  cruzada

Vert

97.2

98.7

98.6

98.0

97.2

 

 

Invert

98.7

97.2

97.4

98.0

98.7

Validación externa

Vert

100.0

100.0

100.0

100.0

100.0

 

 

Invert

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con
CHAID

 

 

 

 

70 % base de datos extendida

Vert

88.9

88.2

87.7

88.5

88.9

 

 

Invert

88.2

88.9

89.3

88.5

88.2

Validación externa

Vert

78.6

70.8

75.9

75.0

78.6

 

 

Invert

70.8

78.6

73.9

75.0

70.8

1.7.5.  Aminoácidos asociados con la
clasificación taxonómica en vertebrados no
mamíferos y mamíferos.

El interés biológico en el estudio de esta taxa esta
dado por el hecho que ella representa a dos grupos de organismos
que durante el proceso evolutivo ocurre su separación en un
determinado momento por lo que sugiere que compartan un
número importante de caracteres y que para su
diferenciación sea importante contar con otro criterio como
el que nos proponemos verificar en esta sección con las
pruebas estadísticas realizadas. Cuando se aplica la
técnica CHAID, Tabla 3.2.5.1 podemos observar que el
aminoácido que tiene mejor porciento de clasificación
es aquel que mayor signifcación posee, la Metionina.

Tabla 3.2.5.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Glicina

0.031889439

88

Serina

0.006475131

89,5

Tirosina

0.000723822

90

Lisina

0.000384934

89,5

Triptófano

0.000366596

87

Fenilalanina

0.000173892

87

Alanina

4.58E-05

93

Histidina

2.33556E-05

90,5

Cisteína

1.52071E-05

92

Ácido Aspártico

9.17068E-09

90

Glutamina

3.65863E-11

89

Leucina

1.81915E-12

90,5

Arginina

1.97404E-13

93,5

Prolina

1.28088E-13

93,5

Isoleucina

3.88711E-14

91,5

Ácido Glutámico

2.8872E-15

91

Treonina

5.19733E-16

92,5

Valina

4.30663E-16

94

Asparagina

3.10522E-16

92

Metionina

1.96905E-21

95

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.2.5.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

En la Tabla 3.2.5.2 se muestran los resultados de una
validación cruzada en la base de datos curada y en la Figura
3.2.5.1 muestra el árbol que, además de tener en su
nodo principal el aminoácido de mayor significación,
intervienen otros en los nodos secundarios, Prolina y Asparagina,
que presentan alta significación por lo que esta altamente
correlacionados.

Figura 3.2.5.1 Sección A del árbol de
aminoácidos asociados con los resultados en la base de datos
curada con validación cruzada en las clasificaciones
taxonómicas de vertebrados no mamiferos y mamiferos.

Figura 3.2.5.1 Sección B del árbol de
aminoácidos asociados con los resultados en la base de datos
curada con validación cruzada en las clasificaciones
taxonómicas de vertebrados no mamiferos y mamiferos.

Tabla 3.2.5.3 Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa.

Los resultados son corroborados con una base extendida donde
los porcientos de clasificación son aceptables. En la Tabla
3.2.5.3 se puede apreciar que tanto en la base de entrenamiento
(70% de la base) como en la base externa (resto de la base) se
alcanza un 94%.

1.7.5.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis de discriminante pudimos comprobar que
toods los aminoácidos están asociados con la
clasificación de los vectores NECk en
estos dos grupos de organismos. En la Tabla 3.2.5.1.1 se puede
ver que todos poseen correlaciones altas de las variables con la
función Discriminante. En la Tabla 3.2.5.1.2 se presentan
las funciones discriminantes obtenidas por el método
Stepwise minimizando la Lambda de Wilk y sin aplicar este
método, aquí observamos que el aminoácido Tirosina
no esta presente en ninguno de los dos métodos y que solo
nueve aminoácidos estan presentes en el método
Stepwise.

Mientras, en la Tabla 3.2.5.1.3 se puede apreciar que la
eficacia de las funciones discriminantes en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares, indicando el buen desempeño de
las funciones discriminantes.  

En las curvas ROC obtenidas (Figura 3.2.5.1.1) se muestran con
claridad los tres métodos aplicados, sin embargo los
resultados de clasificación global no son
estadísticamente diferentes para los métodos de
obtención de las funciones discriminantes y para el
método CHAID, Tabla 3.2.5.1.4, en la que se muestra que los
intervalos de confianza asintóticos para 95% de confianza de
las áreas bajo la curva ROC se solapan. Cuando se utilizan
los parámetros derivados de la matríz de confusión
para evaluar el desempeño de estos clasificadores, nos
sugieren que las diferencias entre los clasificadores son
mínimas en la Tabla 3.2.5.1.5 se muestran los valores de los
parámetros mencionados.

Tabla 3.2.5.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Aminoácido

Función Discriminante

Valina

0.601773568

Asparagina

-0.542521612

Isoleucina

-0.532015422

Ácido Glutámico

0.466758664

Leucina

-0.461167619

Glutamina

0.454836113

Arginina

0.442923251

Treonina

-0.416294569

Metionina

-0.403460246

Ácido Aspártico

0.356307615

Cisteína

0.25158214

Prolina

0.242783766

Fenilalanina

-0.239970835

Lisina

0.204346612

Glicina

0.199265288

Triptófano

-0.162943411

Alanina

-0.136532651

Tirosina

0.108252116

Histidina

0.078358099

Serina

-0.024180644

Tabla 3.2.5.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

-1.908191

-1.922293

Cisteína

0.1611483

Ácido Aspártico

-1.07872

Ácido Glutámico

0.5832623

Fenilalanina

-1.291696

-0.949225

Glicina

-0.42828

-0.665337

Histidina

-0.052023

Isoleucina

0.9644433

0.8220759

Lisina

0.3764664

Leucina

0.234707

Metionina

-0.770816

Asparagina

-1.404127

-1.590907

Prolina

1.9039964

2.2351536

Glutamina

1.3136492

1.7373429

Arginina

-0.791883

Serina

0.5240509

Treonina

-0.775059

Valina

2.7165784

2.8706175

Triptófano

3.5642005

2.8976621

(Constant)

-6.41049

-9.487415

Tabla 3.2.5.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.481

100

100

0.881

1

0.223

212.232

9

0.000

Todas las variables

1

3.849

100

100

0.891

1

0.206

215.502

19

0.000

Tabla 3.2.5.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Mamíferos
(Análisis CHAID)

0.974

0.010

0.000

0.953

0.994

Probabilidad Mamíferos
(Análisis Discriminante)

0.999

0.001

0.000

0.996

1.000

Probabilidad Mamíferos
(Análisis Disc. Stepwise)

0.996

0.002

0.000

0.991

1.000

Figura 3.2.5.1.1Curvas ROC obtenidas con
los dos métodos de discriminante y con el método CHAID
para mamíferos.

Tabla 3.2.5.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Mamiferos

95.8

96.1

95.8

95.9

95.8

 

 

VertNoMamif

96.1

95.8

96.1

95.8

96.1

Validación  cruzada

Mamiferos

94.4

96.1

95.8

95.3

94.4

 

 

VertNoMamif

96.1

94.4

94.8

95.3

96.1

Validación externa

Mamiferos

96.4

91.7

93.1

94.2

96.4

 

 

VertNoMamif

91.7

96.4

95.7

94.2

91.7

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

 

 

70 % base de datos extendida

Mamiferos

97.2

93.1

97.2

97.3

97.2

 

 

VertNoMamif

93.1

97.2

97.4

97.3

97.4

Validación  cruzada

Mamiferos

93.1

94.7

94.4

93.9

93.1

 

 

VertNoMamif

94.7

93.1

93.5

93.9

94.7

Validación externa

Mamiferos

96.4

95.8

96.4

96.2

96.4

 

 

VertNoMamif

95.8

96.4

95.8

96.2

95.8

Predicciones de los miembros del Grupo con
CHAID

 

 

 

 

70 % base de datos extendida

Mamiferos

100.0

89.5

90.0

94.6

100.0

 

 

VertNoMamif

89.5

100.0

100.0

94.6

89.5

Validación externa

Mamiferos

96.4

91.7

93.1

94.2

96.4

 

 

VertNoMamif

91.7

96.4

95.7

94.2

91.7

1.7.6.             
Aminoácidos asociados con la clasificación
taxonómica en primates y homo sapiens.

Por las especies que involucra esta taxa se hace
particularmente interesante el análisis si tenemos en cuenta
que, además de todas las peculiaridades de las
proteínas vistas en el Capítulo 2, se puede agregar que
los Homo Sapiens y los primates pertenecientes ambos al orden
primate, clase mamíferos, la similitud entre sus DNA llega a
ser en algunas especies de hasta un 98,5 % (ejemplo homo sapiens
y chimpancé). Como se puede observar en la Tabla 3.2.6.1, no
todos los aminoácidos alcanzan una buena significación,
en ese caso están la Glutamina, la Cisteína, la
Fenilalanina, la Asparagina, la Arginina y la Serina. Mientras la
Metionina, la Tirosina, la Glicina y la L eucina logran un 97 %
de clasificación, siendo la Leucina el aminoácido que
posee la mayor significación, este resultado se obtiene con
la base de datos curada ver Tabla 3.2.6.2 y Figura 3.2.6.1.

Es de esperar desde el punto de vista Biológico que
cuando el análisis se realiza en una base de datos extendida
con una validación del 70% de la muestra los porcientos de
clasificación no sean tan buenos ver Tabla 3.2.6.3, sin
embargo nuestro propósito es verificar que el uso de los
vectores NECK de las frecuencias de
probabilidades de los aminoácidos en cadenas de
proteínas para esta taxa logra una diferenciación clara
entre las dos especies involucradas, a pesar de su similitud en
este orden.    

Tabla 3.2.6.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Metionina

0.043322937

97

Valina

0.006443999

92

Prolina

0.005132947

94

Alanina

1.28E-03

96

Tirosina

0.000115772

97

Histidina

2.05213E-05

93

Isoleucina

6.71297E-09

94

Glicina

2.52018E-09

97

Lisina

3.44484E-10

95

Treonina

8.23E-13

93

Ácido Aspártico

3.62791E-13

93

Triptófano

3.26E-13

92

Ácido Glutámico

7.29929E-14

94

Leucina

1.09352E-21

97

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.2.6.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Tabla 3.2.6.3 Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa.

Figura 3.2.6.1 Árbol de
aminoácidos asociados con los resultados en la base de datos
curada con validación cruzada en las clasificaciones
taxonómicas de primates y homo sapiens.

1.7.6.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa se
corroboró el resultado, previamente obtenido con el CHAID,
de que todos los aminoácidos están asociados con la
clasificación de los vectores NECk en
estos dos reinos. En la Tabla 3.2.6.1.1 se puede ver que,
incluso, aminoácidos como la Tirosina, el cual no está
incluídos en las combinaciones lineales de las funciones
discriminantes en los dos métodos aplicados, posee una
correlación que no es la mejor, pero si mayor que la que
tienen la mayoria de los que están incluídos ver Tabla
3.2.6.1.2. En la Tabla 3.2.6.1.1, se observa como los
aminoácidos Lisina, Ácido Aspártico,
Triptófano y Ácido Glutámico poseen los mayores
coeficientes de correlación absolutos y altamente
significativos y además todos se incluyen en las funciones
discriminantes aplicadas (Tabla 3.2.6.1.2). Mientras, en la Tabla
3.2.6.1.3 se puede apreciar que los valores de la Lambda de Wilk
y la significación del test Chi-cuadrado, indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares. En particular, para todas las
funciones los valores de estos parámetros son altos,
indicando el buen desempeño de las funciones discriminantes.
Además los indicadores de la correlación canónica
indican la eficacia de la funciones por los valores próximos
obtenidos en ambos métodos.

Cuando se evalua el desempeño de los métodos en la
Figura 3.2.6.1.1, con la construcción de las curvas ROC y en
la Tabla 3.2.6.1.4, podemos observar que con el método
Discriminante en sus dos variantes se obtiene 100% de
clasificación no siendo así con el CHAID que se obtiene
un 95%, sin embargo no consideramos que estas diferencias sean
estadísticamente significativas si tenemos en cuenta las
carácterísticas del taxa con que se trabaja.

Cuando se calculan los parámetros a partir de las
matrices de confusión se observa en la Tabla 3.2.6.1.5 que
las diferencias son más pronunciadas entre los
clasificadores pues mientras que para los análisis de
Discriminante los parámetros están por encima de un 95%
para el CHAID y en particular la clasificación de Homo
Sapiens presenta porcientos no aceptables.

Tabla 3.2.6.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Aminoácido

Función discriminante

Lisina

0.4079589

Ácido Aspártico

0.366458

Triptófano

-0.327464

Ácido Glutámico

0.3153944

Leucina

-0.292727

Tirosina

-0.251821

Glicina

0.2073298

Histidina

0.2034503

Treonina

-0.199123

Prolina

0.1655295

Valina

-0.116912

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter