Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 6)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

Cisteína

-0.112406

Isoleucina

-0.097109

Arginina

0.0765084

Alanina

-0.072726

Serina

-0.07265

Fenilalanina

-0.069234

Metionina

-0.061917

Glutamina

0.0590462

Asparagina

0.0554707

Tabla 3.2.6.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácidos

Función discriminante

 

Todas

Stepwise

Alanina

-0.120741

Cisteína

-0.112789

Ácido Aspártico

1.2602754

1.3495373

Ácido Glutámico

1.6410213

1.3228442

Fenilalanina

1.0233814

1.0276529

Glicina

0.9222785

1.1378398

Histidina

1.8013634

2.0428226

Isoleucina

0.2280033

Lisina

0.8002481

1.1375742

Leucina

-0.844817

-0.747004

Metionina

2.740958

3.3493038

Asparagina

-0.54982

Prolina

2.0142909

3.3493038

Glutamina

-0.023842

Arginina

-0.991585

Serina

0.1109863

Treonina

-0.717032

Valina

0.2848558

Triptófano

-2.760603

-3.129541

(Constant)

-18.40188

-26.26685

Tabla 3.2.6.1.3. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

 

 

 

 

 

 

 

 

 

1

6.352

100

100

0.930

1

0.136

191.516

10

0.00

Todas las variables

 

 

 

 

 

 

 

 

1

6.942

100

100

0.935

1

0.126

189.601

19

0.00

Tabla 3.2.6.1.4. Resultado del área bajo la
curva en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

 

 

 

 

Límite inferior

Límite superior

Probabilidad Homo Sapiens
(Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Homo Sapiens
(Análisis CHAID)

0.949

0.020

0.000

0.911

0.988

Probabilidad Homo Sapiens
 (Análisis Discriminante)

1.000

0.000

0.000

1.000

1.000

Figura 3.2.6.1.1Curvas ROC obtenidas con
los dos métodos de discriminante y con el método CHAID
para Homo Sapiens.

Tabla 3.2.6.1.5 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del Grupo con Anl.
Discriminante (Stpw).

 

 

 

 

 

Grupos

Razón de TP

Razón TN

Prec.

Exac.

% de Clasf.

70 % base de datos extendida

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación  cruzada

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con Anl.
Discriminante (Todas).

 

 

70 % base de datos extendida

Primates

98.2

100.0

100.0

99.0

98.2

 

 

HomoS

100.0

98.2

97.9

99.0

100.0

Validación  cruzada

Primates

96.4

97.9

98.2

97.1

96.4

 

 

HomoS

97.9

96.4

95.8

97.1

97.9

Validación externa

Primates

100.0

100.0

100.0

100.0

100.0

 

 

HomoS

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del Grupo con
CHAID

 

 

 

 

70 % base de datos extendida

Primate

96.4

89.4

91.5

93.2

96.4

 

 

HomoS

89.4

95.5

95.5

93.2

89.4

Validación externa

Primate

92.9

65.2

61.9

75.7

92.9

 

 

HomoS

65.2

93.8

93.8

75.7

65.2

1.8.        
Construcción de árboles de clasificación mediante
el método CHAID atendiendo a las frecuencias del uso de
codones de los aminoácidos en los genes.

Al pasar de una secuencia de codones a la correspondiente
secuencia de aminoácidos se pierde información debido a
la degeneración del código genético (ver
sección 1.2). Por tal motivo, pudiera pensarse que ocurra un
cambio en los vectores NECk tal que afecte la
clasificación de los taxa. Luego, se hace necesaria la
verificación de la hipótesis de investigación
partiendo de secuencias de genes. En nuestro caso, como se
explicó en el capítulo 2, se utilizó la
información recopilada en la base de datos de uso de
codones.

Los análisis se realizaron utilizando como entrenamiento
el 70% de las bases de datos de los taxa construidas. Se
realizó validación cruzada con la base de entrenamiento
y una validación externa con el 30% restante.

1.8.1.  Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en organismos
vivos.

En el análisis realizado con todos los taxa se obtienen
bajos porcientos de clasificación. Sin embargo, al igual que
el resultado obtenido con las bases de secuencias de
proteínas, se verificó que todos los aminoácidos
están asociados de manera altamente significativa con la
clasificación biológica. En particular, los resultados
obtenidos con CHAID se resumen en la Tabla 3.3.1.1, donde podemos
observar que el aminoácido con mayor significación es
el que produce mayor porciento de clasificación aunque no
sea bueno, mientras con el análisis de Discriminante en las
Tablas 3.3.1.2 y 3.3.1.3, por ejemplo la Tirosina, el cual 
no está incluído en las combinaciones lineales de las
funciones discriminantes para el caso en que intervienen todos
los aminoácidos si esta presente cuando se aplica el
método de Stepwies, además presenta correlaciones altas
con la funciones discriminantes.

 Aunque, al igual que con la base de aminoácidos,
los porcientos de clasificación correcta obtenidos con el
análisis de Discriminante son mejores que con el método
CHAID, los resultados sugieren que es posible alcanzar una mayor
significación estadística en la diferenciación de
los taxa si se analizan por separados grupos de taxa atendiendo a
criterios de interés biológicos-evolutivos.
  

Tabla 3.3.1.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Fenilalanina

1.11011E-19

62,9

Metionina

4.56265E-29

63,6

Arginina

5.26252E-30

64,2

Triptófano

7.63E-36

66,9

Prolina

7.93253E-41

67,8

Tirosina

1.96584E-42

68

Leucina

2.69777E-47

69,8

Ácido Glutámico

1.27706E-48

66

Histidina

1.83529E-49

67,3

Ácido Aspártico

1.11934E-51

68,4

Glicina

3.50217E-52

66,2

Lisina

2.17215E-54

68,7

Asparagina

3.46256E-61

67,3

Treonina

2.64E-61

66,4

Isoleucina

1.55462E-61

64

Cisteína

4.30445E-70

66

Glutamina

1.23215E-77

65,1

Valina

1.52126E-78

70

Alanina

4.39E-93

70,2

Serina

3.2243E-101

72,4

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.1.2. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Tabla 3.3.1.3. Funciones discriminantes canónicas
obtenidas con la introducción de todos los aminoácidos
que satisfacen el test de tolerancia y con el método
stepwise.

1.8.2.  Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
archaeabacterias, bacterias y eucariotes.

Usando el método CHAID en el caso de los tres reinos pero
para el caso donde sean secuencias de uso de genes  en una
base de datos que muestra diversidad de organismos y tipos de
proteinas presentes, se obtienen resultados excelentes desde el
punto de vista de clasificación así como
interacción entre aminoácidos lo cual se muestra en la
Tabla 3.3.2.1, donde la Serina alcanza un 98,7 % de
clasificación, Tabla 3.3.2.1, y siendo el que mayor
significación posee, apareciendo en el nodo principal del
árbol de la Figura3.3.2.1, donde aparecen en los nodos
secundarios aminoácidos como la Lisina y el Triptófano
que también presentan una buena significación.

Tabla 3.3.2.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Leucina

1.03509E-09

98

Ácido Aspártico

4.12693E-11

98

Metionina

1.77809E-11

96,9

Fenilalanina

6.98123E-13

97,3

Triptófano

1.86E-14

98,2

Arginina

7.5487E-18

96,7

Tirosina

4.05541E-20

97,1

Prolina

1.48704E-28

98,4

Asparagina

7.28407E-29

98,4

Treonina

5.98501E-39

97,6

Ácido Glutámico

1.77E-40

97,3

Histidina

1.61649E-46

97,6

Glicina

8.24765E-48

96,2

Lisina

2.03555E-51

98,2

Isoleucina

3.92231E-57

98,9

Glutamina

9.01E-59

98,4

Valina

6.9077E-64

97,8

Cisteína

5.6843E-64

97,1

Alanina

7.97147E-66

97,1

Serina

1.9151E-99

98,7

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.3.2.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Figura 3.3.2.1 Árbol de aminoácidos asociados
con los resultados en la base de datos curada con validación
cruzada en las clasificaciones taxonómicas de archaeas,
bacterias y eucariote.

Tabla 3.3.2.3. Clasificación obtenida con
método CHAID en la base de datos tomando aleatoriamente el
70% de la base como entrenamiento y el resto usado en
validación externa.

1.8.2.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa
se comprueba que todos los aminoácidos están asociados
con la clasificación de los vectores NECk
en los tres reinos. En la Tabla 3.3.2.1.1 se puede ver que, el
aminoácido Tirosina está incluído solo en las
combinaciones lineales de las funciones discriminantes cuando se
utiliza el método Stepwise. Mientras, en la Tabla 3.3.2.1.2
se puede apreciar que la eficacia de las funciones discriminantes
en la separación de los casos en grupos, expresada a
través de las correlaciones canónicas, es similar para
ambos procedimientos. Además, los valores de la Lambda de
Wilk y la significación del test Chi-cuadrado indican que
las capacidades discriminatorias de las funciones obtenidas por
estos procedimientos son similares. En particular, para todas las
funciones los valores de estos parámetros son altos,
indicando el buen desempeño de las funciones discriminantes,
que también se observa en el gráfico de dispersión
que aparece en la Figura 3.3.2.1.1. 

En la comparación de los clasificadores no hay
diferencias en los indicadores este hecho se ilustra en las
curvas ROC obtenidas (Figura 3.3.2.1.2) y en la Tabla 3.3.2.1.3,
en la que se muestra que los intervalos de confianza
asimtóticos para 95% de confianza de las áreas bajo la
curva ROC. Cuando se utilizan los parámetros derivados de la
matríz de confusión para evaluar el desempeño de
estos clasificadores, nos sugieren que las diferencias entre los
clasificadores no son significativas. En la Tabla 3.3.2.1.4 se
muestran los valores de los parámetros mencionados.

Tabla 3.3.2.1.1. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácido

Todas

 

Stepwise

 

 

Función discriminante

Función discriminante

 

1

2

1

2

Alanina

1.87522537

2.71219483

Cisteína

2.35349121

1.18627654

Ácido Aspártico

1.65542172

3.79086839

0.01505919

2.05921876

Ácido Glutámico

0.87853914

1.21141879

0.76471639

1.39716935

Fenilalanina

1.33390973

2.39542641

Glicina

2.0104053

2.14675602

Histidina

3.00759821

4.41305899

Isoleucina

0.64295095

2.41513135

1.17796651

0.27728312

Lisina

1.32325793

1.7472425

0.53833916

0.71379549

Leucina

1.18522417

2.86236885

0.64675298

0.44148571

Metionina

1.68716796

2.00676784

Asparagina

1.301334

3.1603493

Prolina

0.79049656

1.32850812

2.25283399

1.36749052

Glutamina

2.81106128

3.52604836

1.10296299

1.15205197

Arginina

0.66028745

1.79338244

0.82580626

0.59797662

Serina

4.30810311

0.83123861

2.53607525

1.61273661

Treonina

0.942135

3.88635571

1.02379164

1.61152628

Valina

0.13613422

2.18525549

1.48574882

0.39439735

Tirosina

2.25373227

2.07990895

Triptófano

0.34218149

2.18638374

(Constante)

78.0678216

141.079972

29.0273106

9.24919259

Tabla 3.3.2.1.2. Eficacia de las funciones
discriminantes a través de las correlaciones canónicas
y los valores de la Lambda de Wilk.

Función

Valor principal

% de Varianza

% Var. Acum.

Corr. Canónica

Función

Lambda de Wilks

Chi cuadrado

g.l.

Sig.

Stepwise

1

36.883

73.164

73.164

0.987

1 a 2

0.002

634.217

24

0.000

2

13.529

26.836

100.000

0.965

2

0.069

268.950

11

0.000

Todas las variables

1

39.824

71.749

71.749

0.988

1 a 2

0.001

632.783

38

0.000

2

15.681

28.251

100.000

0.970

2

0.060

272.983

18

0.000

Tabla 3.3.2.1.3. Resultado del área bajo la curva
en los tres métodos utilizados.

Resultados del Análisis

Área

 Error Estándar

 Sig. Asintótica

Intervalo de confianza
asintótico para el 95%

Límite inferior

Límite superior

Probabilidad Archaea (Análisis
Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Archaea (Análisis
CHAID)

0.997

0.002

0.000

0.993

1.000

Probabilidad Archaea (Análisis
Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis
Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Bacteria (Análisis
CHAID)

0.997

0.002

0.000

0.993

1.000

Probabilidad Bacteria (Análisis
Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes
(Análisis Disc. Stepwise)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes
(Análisis CHAID)

1.000

0.000

0.000

1.000

1.000

Probabilidad Eucariotes
(Análisis Disc. Todas)

1.000

0.000

0.000

1.000

1.000

Figura 3.3.2.1.1 Gráfico de dispersión de la
función Discriminante.

Figura 3.3.2.1.2Curvas ROC obtenidas con los dos
métodos de discriminante y con el método CHAID.

Tabla 3.3.2.1.4 Parámetros calculados a partir de
la matriz de confusión para evaluar el desempeño de los
clasificadores utilizados.

Predicciones de los miembros del
Grupo con Anl. Discriminante Stepwise

70 % base de datos extendida

 

 

 

Org.

Razón de TP

Razón de TN

Precisión

Exactitud

% Clasif.

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Validación 
cruzada

 

 

 

 

Archaea

100.0

98.6

97.5

99.1

100.0

Bacteria

97.3

100.0

100.0

99.1

97.3

Eucariotes

100.0

98.7

100.0

99.1

100.0

Validación externa

 

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del
Grupo con Anl. Discriminante (todas)

70 % base de datos extendida

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Validación 
cruzada

 

 

 

 

Archaea

100.0

98.6

97.5

99.1

100.0

Bacteria

97.3

100.0

100.0

99.1

97.3

Eucariotes

100.0

98.7

100.0

99.1

100.0

Validación externa

 

 

 

 

Archaea

100.0

100.0

100.0

100.0

100.0

Bacteria

100.0

100.0

100.0

100.0

100.0

Eucariotes

100.0

100.0

100.0

100.0

100.0

Predicciones de los miembros del
Grupo con CHAID

 

 

70 %  base de datos
extendida

 

 

 

Archaea

97.4

98.6

97.4

98.2

97.4

Bacteria

97.3

98.6

97.3

98.2

97.3

Eucariotes

100.0

97.4

100.0

98.2

100.0

Validación externa

 

 

 

 

Archaea

90.9

100.0

100.0

97.6

90.9

Bacteria

100.0

96.4

92.9

97.6

100.0

Eucariotes

100.0

95.8

100.0

97.6

100.0

1.8.3.  Aminoácidos asociados mediante el uso
de codones con las clasificaciones taxonómicas en
archaeabacterias y bacterias.

Con el método CHAID en estos dos reinos, se observa en la
Tabla 3.3.3.1, que al igual que en la taxa anterior el
aminoácido Serina tiene el mejor porciento de
clasificación, mientras la mayor significación la posee
la Lisina que también estaba presente en los
aminoácidos de mayor significación en la taxa anterior,
los porcientos de clasificación se pueden ver en la Tabla
3.3.3.2 y el árbol correspondiente es el que aparece en la
Figura 3.3.3.1.

Tabla 3.3.3.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Asparagina

0.01478413

96

Cisteína

4.81751E-05

98

Leucina

1.4552E-05

96

Valina

1.26618E-06

95

Ácido Aspártico

1.36782E-07

94

Metionina

1.04092E-07

96

Arginina

2.40979E-08

97

Serina

1.04247E-08

98

Triptófano

9.33E-13

94

Tirosina

2.14801E-15

96

Glicina

1.86287E-15

96

Prolina

7.69908E-21

97

Histidina

1.09352E-21

94

Treonina

1.33227E-22

97

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter