Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 4)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

Cisteína

3.310732231

-1.692376434

1.901286543

1.965185789

Ácido Aspártico

1.558358609

0.317792496

Ácido Glutámico

0.792671149

-0.964414539

-0.747640779

1.387547125

Fenilalanina

1.464973618

0.261072156

Glicina

0.905491907

0.298178086

-0.661236016

0.17008811

Histidina

3.650391437

-0.681412275

2.111016944

1.442137596

Isoleucina

1.251241606

0.315105464

Lisina

1.291028255

0.781428574

-0.259736438

-0.365299324

Leucina

1.692656627

0.627164431

Metionina

2.232989862

0.355582763

0.735120813

0.096567728

Asparagina

1.755662058

0.466027904

Prolina

1.680706246

0.694573323

Glutamina

2.661642231

1.967428169

1.217848927

-1.606940573

Arginina

1.453948483

0.854261427

0.061374096

-0.534533261

Serina

2.386767639

-0.472410556

0.987602167

0.817741217

Treonina

1.355212891

0.56985644

0.924887649

-0.466115737

Valina

2.522376259

1.000621086

Tirosina

-1.546234127

0.906075053

Triptófano

1.599846115

-0.626305971

(Constante)

-95.07061812

-21.02880013

-2.504492874

-6.918114573

Tabla 3.2.2.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

7.052

78.88

78.88

0.936

1 a 2

0.043

1275.937

24

0.000

2

1.888

21.12

100

0.809

2

0.346

430.085

11

0.000

Todas las variables

1

7.248

78.578

78.578

0.937

1 a 2

0.041

1286.631

38

0.000

2

1.976

21.422

100

0.815

2

0.336

438.414

18

0.000

Figura 3.2.2.1.1 Gráfico de
dispersión de la función Discriminante.

Este hecho se ilustra en las curvas ROC obtenidas (Figura
3.2.2.1.2) y en la Tabla 3.2.2.1.4, en la que se muestra que los
intervalos de confianza asintóticos para 95% de confianza de
las áreas bajo la curva ROC se solapan. Sin embargo, al
utilizar los parámetros derivados de la matríz de
confusión para evaluar el desempeño de estos
clasificadores, nos sugieren que existen algunas diferencias
entre los clasificadores. En la Tabla 3.2.2.1.5 se muestran los
valores de los parámetros mencionados.

Tabla 3.2.2.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Archaea (Análisis
Disc. Stepwise)

0.991

0.003

0.000

0.985

0.996

Probabilidad Archaea (Análisis
CHAID)

0.987

0.004

0.000

0.980

0.995

Probabilidad Archaea (Análisis
Disc. Todas)

0.991

0.003

0.000

0.986

0.997

Probabilidad Bacteria (Análisis
Disc. Stepwise)

0.982

0.004

0.000

0.974

0.990

Probabilidad Bacteria (Análisis
CHAID)

0.967

0.008

0.000

0.952

0.983

Probabilidad Bacteria (Análisis
Discriminante)

0.983

0.004

0.000

0.975

0.991

Probabilidad Eucariotes
(Análisis Disc. Stepwise)

0.999

0.001

0.000

0.998

1.000

Probabilidad Eucariotes
(Análisis CHAID)

0.984

0.005

0.000

0.975

0.994

Probabilidad Eucariotes
(Análisis Discriminante)

0.999

0.001

0.000

0.997

1.000

Figura 3.2.2.1.2Curvas ROC obtenidas con
los dos métodos de discriminante y con el método
CHAID.

Tabla 3.2.2.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante Stepwise

 

70 % base de datos extendida

Org.

Archaea

Bacteria

Eucariotes

Razón de TP

Razón TN

Precisión

Archaea

93.2

6.8

0.0

93.2

94.0

92.6

Bacteria

8.2

90.3

1.5

90.3

95.4

90.3

Eucariotes

0.0

2.3

97.7

97.7

91.8

98.5

 

Validación 
cruzada

Archaea

92.6

7.4

0.0

92.6

92.5

91.3

Bacteria

9.7

88.8

1.5

88.8

94.3

88.1

Eucariotes

0.0

3.8

96.2

96.2

90.8

98.4

 

Validación externa

Archaea

88.5

11.5

0.0

88.5

92.5

93.9

Bacteria

4.5

92.4

3.0

92.4

90.8

84.7

Eucariotes

0.0

7.4

92.6

92.6

90.7

96.9

Predicciones de los miembros del Grupo con Anl.
Discriminante (todas)

 

70 % base de datos extendida

Archaea

91.9

8.1

0.0

91.9

94.4

93.2

Bacteria

7.5

91.0

1.5

91.0

94.6

89.1

Eucariotes

0.0

2.3

97.7

97.7

91.5

98.5

 

Validación 
cruzada

Archaea

91.9

8.1

0.0

91.9

92.5

92.5

Bacteria

8.2

90.3

1.5

90.3

93.2

86.4

Eucariotes

0.0

5.3

94.7

94.7

91.1

98.4

 

Validación externa

Archaea

90.4

9.6

0.0

90.4

91.8

92.2

Bacteria

6.1

90.9

3.0

90.9

91.7

85.7

Eucariotes

0.0

7.4

92.6

92.6

90.7

96.9

 

Predicciones de los miembros del
Grupo con CHAID

 

70 %  base de datos
extendida

Archaea

95.3

4.7

0.0

95.3

95.5

99.3

Bacteria

0.7

95.5

3.7

95.5

95.4

90.8

Eucariotes

0.0

4.5

95.5

95.5

95.4

96.2

 

Validación externa

Archaea

47.0

4.0

1.0

90.4

91.8

100.0

Bacteria

0.0

62.0

4.0

93.9

90.0

84.9

Eucariotes

0.0

7.0

61.0

89.7

92.4

92.4

1.7.3.  Aminoácidos asociados con la
clasificación taxonómica en archaeabacterias y
bacterias.

En un primer análisis se utilizó la técnica del
CHAID con validación cruzada en la base de datos curada. El
método CHAID construye, por defecto, el árbol de la
variable con mayor significación estadística. Para esta
base el aminoácido de mayor significación es la
Alanina, cuyo árbol se muestra en la Figura 3.2.3.1. En la
tabla de clasificación correspondiente se aprecia que para
las bacterias se alcanza un 100% de clasificación, mientras
que en la clasificación total se logra un 96% (Tabla
3.2.3.1). No obstante, en la Tabla 3.2.3.2 se puede ver que todos
los aminoácidos están fuertemente asociados con la
clasificación taxonómica biológica y que el
aminoácido con mayor significación estadística no
es el que causa el mejor porciento de clasificación.

Figura 3.2.3.1 Árbol de Aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaea y
bacterias.

Tabla 3.2.3.1. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Tabla 3.2.3.2. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Serina

0.043322937

99

Glicina

0.042580131

96

Fenilalanina

0.005793191

100

Valina

0.002078548

97

Cisteína

0.001020605

96

Prolina

0.000393157

98

Treonina

0.000319579

97

Glutamina

0.000292468

97

Tirosina

0.000151604

93

Metionina

2.52667E-08

94

Leucina

9.64362E-10

93

Arginina

4.37685E-10

92

Triptófano

2.64469E-13

96

Ácido Glutámico

1.63794E-14

93

Histidina

1.4771E-14

97

Isoleucina

5.9E-15

95

Ácido Aspártico

7.09697E-19

96

Lisina

6.90823E-20

96

Asparagina

6.90823E-20

97

Alanina

1.28E-24

96

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5

En la Figura.3.2.3.2 se muestra el árbol de decisión
obtenido por método CHAID en la base de datos curada
forzando la entrada del aminoácido Fenilalanina, mientras
que en la Tabla 3.2.3.3 se muestra los porcientos de
clasificación. Los resultados muestran que forzando la
entrada del aminoácido Fenilalanina produce una
separación definitiva de las archaeas y bacterias. Notemos
que, para este aminoácido se obtiene el 100 % de
clasificación, aunque está lejos de tener una buena
significación estadística (si lo comparamos con el
resto de los aminoácidos).

Figura 3.2.3.2.A. Árbol de Aminoácidos
asociados con los resultados en la base de datos curada con
validación cruzada en las clasificaciones taxonómicas
de archaea y bacterias, forzando la Fenilalanina.

 

Figura 3.2.3.2.B. Árbol de
Aminoácidos asociados con los resultados en la base de datos
curada con validación cruzada en las clasificaciones
taxonómicas de archaea y bacterias, forzando la
Fenilalanina.

Tabla 3.2.3.3. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada, forzando la Fenilalanina.

Tabla 3.2.3.4. Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa.

Hasta este punto, se ha verificado que es posible diferenciar
los reinos de bacterias y archaeas utilizando bases de secuencias
en las que se ha reducido el número de secuencias que
comparten características comunes a ambas taxa y expresan,
en mayor medidad, la variabilidad propia de cada taxa. Sin
embargo, por construcción, la base curada no contiene la
variabilidad necesaria, en las secuencias de proteínas que
la conforman, para ser útil como base de entrenamiento que
permita obtener un clasificador capáz de alcanzar un buen
desempeño ante una base externa con alta variabilidad de
secuencias. Estos hechos evidencian que si se desea clasificar
secuencias de proteínas con mayor variabilidad en las
distribuciones de aminoácidos correspondientes, es necesario
extender la base curada con secuencias que compartan
características estadísticas comunes a ambos taxa. En
la Tabla 3.2.3.4 se muestra el resultado del análisis con el
CHAID de la base extendida formada por 200 vectores de cada taxa.
En la base de entrenamiento (70% de la base) se alcanzó el
98% de clasificación total, mientras que en la
validación externa el 99% (30% de la base).

1.7.3.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

El análisis de discriminante realizado en esta taxa
muestra que todos los aminoácidos están asociados con
la clasificación de los vectores NECk. En
la Tabla 3.2.3.1.1 se puede ver que, incluso aquellos que no
están presentes en uno de los dos métodos Tabla
3.2.3.1.2, o en ambos, como es el caso de la Tirosina poseen
correlaciones mayores que algunos de los incluidos.

En la Tabla 3.2.3.1.3 se puede apreciar que los valores de la
Lambda de Wilk y la significación del test Chi-cuadrado
indican que las capacidades discriminatorias de las funciones
obtenidas por estos procedimientos son similares. La eficacia de
las funciones discriminantes en la separación de los casos
en grupos, se expresa a través de los valores de las
correlaciones canónicas.

Para evaluar el desempeño del CHAID y el Discriminante
usamos las curvas ROC obtenidas (Figura 3.2.3.1.1) y en la Tabla
3.2.3.1.4, tenemos los valores de las áreas bajo la curva,
estos elementos muestran que no hay diferencias significativas
entre los dos métodos. Al utilizar los parámetros
derivados de la matríz de confusión, nos sugieren que
las diferencias entre los clasificadores son mínimas. En la
Tabla 3.2.3.1.5 se muestran los valores de los parámetros
mencionados.

Tabla 3.2.3.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Aminoácido

Función Discriminante

Glutamina

0.55

Isoleucina a

-0.45

Arginina

0.428

Lisina

-0.403

Tirosina a

-0.367

Alanina

0.357

Prolina

0.318

Asparagina

-0.311

Serina

-0.246

Fenilalanina a

-0.202

Histidina a

0.138

Cisteína a

-0.118

Leucina

0.104

Ácido Aspártico

0.087

Valina

0.067

Treonina

0.045

Triptófano a

0.039

Ácido Glutámico a

-0.029

Metionina

-0.025

Glicina

0.009

Tabla 3.2.3.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

Todas

Stepwise

Alanina

0.86593423

0.8051423

Cisteína

0.56531521

Ácido Aspártico

0.82557749

0.71594929

Ácido Glutámico

0.33801189

Fenilalanina

0.10955719

Glicina

0.55514944

0.64425764

Histidina

0.26960293

Isoleucina

0.26424837

Lisina

1.55534119

1.54844199

Leucina

1.85565316

1.99078812

Metionina

2.25971271

2.38887696

Asparagina

2.20713337

2.33146195

Prolina

2.27098881

2.46609259

Glutamina

2.69197518

2.63442816

Arginina

1.15922745

1.12068112

Serina

0.47466926

0.50092619

Treonina

2.20243491

2.44662457

Valina

1.10444373

1.04160686

Triptófano

0.05608013

(Constant)

59.0681373

61.4489587

Tabla 3.2.3.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

3.789

100

100

0.889

1

0.209

448.777

13

0.000

Todas las variables

1

3.886

100

100

0.892

1

0.205

449.715

19

0.000

Tabla 3.2.3.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Bacteria (Análisis
Disc. Stepwise)

0.995

0.002

0.000

0.991

0.999

Probabilidad Bacteria (Análisis
CHAID)

0.996

0.002

0.000

0.992

1.000

Probabilidad Bacteria (Análisis
Discriminante)

0.996

0.002

0.000

0.992

1.000

Figura 3.2.3.1.1Curvas ROC obtenidas con
los dos métodos de discriminante y con el método CHAID
para bacterias.

Tabla 3.2.3.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón de TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Archaea

99.3

93.2

93.7

96.3

99.3

 

 

Bacteria

93.2

99.3

99.3

96.3

93.2

Validación  cruzada

Archaea

99.3

91.1

91.9

95.3

99.3

 

 

Bacteria

91.1

99.3

99.3

95.3

91.1

Validación externa

Archaea

96.1

98.1

98.0

97.1

96.1

 

 

Bacteria

98.1

96.1

96.4

97.1

98.1

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

 

 

70 % base de datos extendida

Archaea

100.0

93.8

94.3

96.9

100.0

 

 

Bacteria

93.8

100.0

100.0

96.9

93.8

Validación  cruzada

Archaea

99.3

90.4

91.4

94.9

99.3

 

 

Bacteria

90.4

99.3

99.2

94.9

90.4

Validación externa

Archaea

98.0

98.1

98.0

98.1

98.0

 

 

Bacteria

98.1

98.0

98.1

98.1

98.1

Predicciones de los miembros del Grupo con
CHAID

 

 

 

 

70 % base de datos extendida

Archaea

99.3

96.6

96.7

98.0

99.3

 

 

Bacteria

96.6

99.3

99.3

98.0

96.6

Validación externa

Archaea

100.0

98.1

98.1

99.0

100.0

 

 

Bacteria

98.1

100.0

100.0

99.0

98.1

1.7.4.          
Aminoácidos asociados con la clasificación
taxonómica en vertebrados e invertebrados.

Cuando se aplica la técnica CHAID a la base curada con
una validación cruzada se tienen los datos de la  Tabla
3.2.4.1, donde podemos observar la correlación de los
aminoácidos exceptuado la Cisteína la que tiene una
significación mayor que 0.05, tenemos aquí el mejor
porciento de clasificación presente en la  Leucina,
Tabla 3.2.4.2 y el que mejor significación presenta
 Ácido Aspártico, por lo
que aparece en el nodo principal del árbol, Figura 3.2.4.1,
donde además aparecen en nodos secundarios la Isolecina,
Ácido Glutámico y Triptófano aminoácidos con
buena significación y buen porciento de clasificación.
En la base de datos extendida con una validación del 70% de
la muestra los resultados no son aceptables Tabla 3.2.4.3, pero
fueron usados para la comparación con otro clasificador.

Tabla 3.2.4.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Histidina

0.000313443

96,7

Tirosina

4.26129E-05

94

Glutamina

4.56215E-06

96

Fenilalanina

7.25884E-07

97

Serina

1.23944E-07

93,7

Alanina

2.88E-08

94,7

Glicina

2.22134E-09

96

Valina

1.14447E-09

96,3

Isoleucina

9.30623E-10

95

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter