Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas (página 3)



Partes: 1, 2, 3, 4, 5, 6, 7, 8

Phe

2

2.440

2.788

2.562

2.678

2.440

Pro

4

2.702

2.434

3.142

2.599

3.111

Ser

6

3.617

3.770

5.185

3.941

4.209

Thr

4

2.910

3.142

3.398

3.123

3.599

Trp

1

0.628

0.671

0.689

0.665

0.854

Tyr

2

2.245

1.970

1.848

2.013

1.952

Val

4

4.862

4.191

3.715

4.276

4.026

Coef. Corr. Pearson d

 

0.634

0.643

0.743

0.666

0.735

aFrecuencias de aminoácidos en 8 genomas
de archaeas, 22 genomas de bacterias y 5 genomas de eucariotes
[29].

b Número de codones que codifican para
cada aminoácido en la tabla del CGS (ver Tabla 1.2.1).

c Frecuencias de aminoácidos en
proteínas [30].

d Todas las correlaciones son altamentente
significativas (p < 0.01).

Luego, el NEC constituye una variable que expresa la
divergencia existente entre el CGS y el número efectivo
funcional de codones. Por ejemplo, en la Tabla 2.2.1 el
Ácido Glutámico (Glu) en Eucariotes posee un
NEC=4.050, sin embargo en el CGS solo dos codones
codifican para este aminácido. Esto no significa que en los
organismos eucariotes existen más de dos codones que
codifican para el Ácido Glutámico (pues solo hay dos),
sino sugiere que, funcionalmente durante la síntesis de
proteínas, se garantiza el material necesario (tRNA, enzimas
involucradas, etc) para producir un efecto en la eficiencia del
proceso de síntesis equivalente al que tendría la
existencia de más de dos codones codificantes para dicho
aminoácido.

Estos análisis nos sugieren utilizar la variable
NEC tal y como se plantea en la hipótesis de
investigación. Luego, los vectores NECk
(20-dimensionales) se calcularon (Anexo 8) a partir de las
secuencias de proteínas y del uso de codones que conforman
las bases de datos descritas en las secciones anteriores. Con
este propósito cada base de secuencias de proteínas fue
particionada en subconjuntos de secuencias en correspondencia con
su tamaño.

                                              
(2.2.2)

Como consecuencia a cada taxa le corresponde un conjunto de
vectores NECk los cuales fueron utilizados en
las pruebas estadísticas que se realizaron para verificar la
hipótesis de investigación.

Cuando se parte del uso de codones cada subconjunto de la
partición está formado por vectores 64-dimensionales,
cada uno de los cuales contiene las frecuencias de uso de los 64
codones del gen que representa. Si ni
() denota el
número de codones que codifican para el aminoácido
i (i =1,..,20), k denota el
k-ésimo vector que contiene las frecuencias
(j =
1,.., ni) de uso de los 64 codones presentes en
el k-ésimo gene, entonces la frecuencia observada
del
aminoácido i en un subconjunto conformado por
m genes se estimó como:

                                            
(2.2.3)

Como consecuencia, a cada taxa le corresponde un conjunto de
vectores NECk estimados por la expresión
(2.2.1), los cuales fueron utilizados en las pruebas
estadísticas que se realizaron para verificar la
hipótesis de investigación.

En una primera etapa se realizaron análisis con la
técnica CHAID a las 11 taxa a partir de los resultados
obtenidos  y con un marcado interés biológico se
decide estudiar 6 de estas taxa,  con la aplicación de
otras técnicas,  como variables dependientes escogidas
una a una:

  • Taxa1– Archaea, Bacterias, Insectos, Invertebrados,
    Plantas, Vertebrados no mamíferos, Mamíferos no
    primate, Primates y Homo Sapiens.
  • Taxa2– Archaea, Bacterias.
  • Taxa3– Archaea, Bacterias y Eucariotes.
  • Taxa4- Archaea, Bacterias e Invertebrados.
  • Taxa5- Insectos y otros invertebrados.
  • Taxa6– Invertebrados y Vertebrados.
  • Taxa7– Vertebrados no mamíferos y
    Mamíferos (mamíferos no primates, primates y homo
    sapiens).
  • Taxa8- Vertebrados no mamíferos y Mamíferos no
    primates.
  • Taxa9- Mamíferos y Primates (homo sapiens).
  • Taxa10- Mamíferos no primates, Primates y Homo
    Sapiens.
  • Taxa11-  Primates y Homo Sapiens.

, 20  variables independientes que representan los
aminoácidos:

  • 3 clases de 6 tripletes, para los aminoácidos Serina
    (S), Leucina (L) y Arginina (R).
  • 5 clases de 4 tripletes, para los aminoácidos Treonina
    (T), Alanina (A), Valina (V), Glycina (G) y Prolina (P).
  • 2 clases de 3 tripletes, para la Isoleucina (I) y la
    señal de parada, respectivamente.
  • 9 clases de 2 tripletes, para los aminoácidos
    ácido Glutámico (E), Glutamina (Q), Asparagina (N),
    ácido Aspártico (D), Histidina (H), Lisina (K),
    Tirosina (Y), Cisteína (C), y Fenilalanina (F). 
  • 2 clases de un solo triplete, para la Metionina (M) y el
    Triptófano (W).

LAS DIFERENCIAS EN EL NÚMERO
ESTIMADO DE CODONES
Y LA CLASIFICACIÓN
EVOLUTIVA.

Las especies se clasifican a través de un sistema
jerárquico en el cual cada categoría superior incluye
otras inferiores. La teoría y la práctica de clasificar
los organismos son el objeto de la Taxonomía. Los taxa se
pueden clasificar basándose estrictamente en las relaciones
de parentesco o valorizando también las novedades
adaptativas que aparecen en los linajes. Sin embargo, existe
cierta subjetividad en el proceso de clasificación a este
nivel. Con el objetivo de eliminar, en alguna medida, la
subjetividad presente, la taxonomía no solo se aprovecha de
los datos ofrecidos por áreas clásicas de las ciencias
biológicas como la Morfología, la Etología, la
Citogenética, la Biología Molecular y la
Biogeografía, sino además, de las herramientas
desarrolladas por la Bioestadística, la Bioinformática
y la Informática, las cuales realizan contribuciones
significativas a la taxonomía. El análisis
taxonómico está estrechamente vinculado con la historia
evolutiva de las especies.

Con el propósito de verificar la hipótesis de
investigación se aplicaron las técnicas de  CHAID
y análisis de discriminantes a  vectores
NECk (20-dimensionales) provenientes de las
bases de datos descritas en el capítulo 2. El empleo de dos
clasificadores diferentes se debe a que la experiencia acumulada
en el campo de la bioinformática ha conducido al consenso de
que ninguna técnica por separado dará una solución
definitiva o muy eficiente a los problemas de clasificación
de secuencias de proteínas o de ADN, producto de las
indeterminaciones propias de los procesos biológicos y la
presencia de muchos ruidos o ausencia de información. La
clasificación con el CHAID se ve limitada desde el punto de
vista de que cada clasificador que se obtenga, partiendo de
algún aminoácido, involucra no a todos los
aminoácidos. Sin embargo, a través de este método
se pueden detectar cuales aminoácidos y cuales interacciones
están asociadas con la clasificación de los vectores
NECk. Por otra parte, el análisis de
discriminante, aunque no incluye el análisis de las
interacciones, aporta una verificación alternativa de la
hipótesis de investigación y permite evaluar la
importancia absoluta de las variables predictivas en la
clasificación a través de las correlaciones de estas
con la funciones discriminantes, sin importar si la variable se
encuentra o no en las funciones discriminantes. En este
capítulo se presentan y discuten los resultados obtenidos
utilzando las herramientas mencionadas.

1.6.        
Comparaciones entre los vectores NECk
correspondientes a cada taxa

En una primera etapa del análisis se compararon los
vectores NECk derivados para cada taxa con los
correspondientes vectores esperados calculados a partir del
código genético señalado para cada grupo
taxonómico. Como criterios de comparación se emplearon
tres funciones usualmente utilizadas en el análisis
comparativo de vectores de probabilidades (o frecuencias):

c2
                             
(3.1.1)

Entropía Relativa:                  
(3.1.2)

Distancia de Hellinger:          (3.1.3)

Las funciones (3.1.2) y (3.1.3) están expresadas en sus
aproximaciones a la función Chi-cuadrado, es decir, la
entropía relativa y la distancia de Hellinger han sido
multiplicadas por 2, de manera que, si las diferencias entre los
vectores que se comparan son suficientemente pequeñas
entonces, estas funciones siguen una distribución
Chi-cuadrado. En la Tabla 3.1.1 se muestran los resultados de las
comparaciones realizadas (utilizando la función 3.1.1) entre
los vectores NECk y los valores esperados de
acuerdo con las estimaciones realizadas a partir de los
códigos genéticos correspondientes a cada taxa. Se
incluyen, además, los valores de las comparaciones entre los
vectores NECk calculados a partir de las bases
de datos de las secuencias de proteínas y los vectores
correspondientes calculados a partir de las bases de datos de las
secuencias de genes (derivados de la base de usos de codones). En
todas las comparaciones realizadas no se detectaron diferencias
estadísticamente significativas entre los vectores.
Resultados similares se obtienen para las otras funciones.

Tabla 3.1.1. Resultados de las comparaciones realizadas
entre los vectores NECk y los valores esperados
de acuerdo con las estimaciones realizadas a partir de los
códigos genéticos correspondientes a cada taxa.

Grupos de Org.

Esperado vs Obs.

Esperado vs Obs.

Obs. AA vs Obs. Uso de
Codones

c2

Uso de codones

Base AA

 

Bacterias

9.43774

10.6452

3.26328

Archaea

17.8872

15.966

3.22017

Plantas

6.40237

5.58239

0.366178

Insectos

6.88278

6.80905

2.35033

invertebrados

10.4236

8.06901

7.8716

vertebrados no mamiferos

6.68555

9.23761

7.30781

Primates

4.42358

4.79673

1.08405

homo sapiens

6.01274

6.03157

2.68314

mamíferos no primates

6.07456

7.44816

4.31209

En este caso se verificó, con todas las funciones
utilizadas, que no tenemos criterios estadísticamente
suficientes para decir que existen diferencias entre los vectores
NECk correspondientes a cada taxa. En otras palabras, en todas
las comparaciones realizadas entre vectores, los valores
obtenidos (para todas las funciones) son muy pequeños al
compararse con el valor de la distribución Chi-cuadrado con
19 grados de libertad (30.1435) y, por lo tanto, siguen una
distribución Chi-cuadrado. Los resultados obtenidos 
pueden observarse en las Tablas 3.1.2, 3.1.3 y 3.1.4. Notemos que
las comparaciones entre vectores correspondientes a cada par de
taxa analizado dan lugar a valores muy similares de las funciones
(3.1.1), (3.1.2) y (3.1.3). Este hecho, pudiera utilizarse en
estudios bioinformáticos posteriores, para la
elaboración de pruebas de hipótesis o en la
implementación de algún nuevo algoritmo.

Tabla 3.1.2.Distribución Chi-cuadrado [19,0.95]=
30.1435

 

Archea

Bact

Plantas

Invert

Insect

Vert

 Mamíf

Prim

Homo

Archea

0

0.02045

0.07204

0.08990

0.07097

0.21748

0.17240

0.14214

0.12048

Bact

0.02037

0

0.07217

0.07166

0.06362

0.21259

0.17009

0.15285

0.12858

Plantas

0.06446

0.04787

0

0.01334

0.00582

0.11157

0.06686

0.03586

0.02606

Invert

0.09339

0.05734

0.01303

0

0.00915

0.09024

0.05638

0.04120

0.02965

Insect

0.07129

0.04938

0.00568

0.00913

0

0.08055

0.04729

0.02559

0.02121

Vert

0.27661

0.23412

0.11100

0.09786

0.08667

0

0.00905

0.03328

0.05742

 Mamíf

0.20388

0.16946

0.06814

0.06244

0.05028

0.00891

0

0.01385

0.02507

Prim

0.15221

0.12829

0.03516

0.04310

0.02589

0.03335

0.01351

0

0.01334

Homo

0.12255

0.10167

0.02602

0.03207

0.02010

0.05836

0.02615

0.01375

0

Tabla 3.1.3. Comparación de vectores con la
Entropía Relativa.

 

Archea

Bact

Plantas

Invert

Insect

Vert

 Mamíf

Prim

Homo

Archea

0

0.01931

0.06799

0.08364

0.06633

0.19914

0.18674

0.13197

0.10901

Bact

0.01927

0

0.06193

0.06367

0.05580

0.18612

0.17514

0.12798

0.10782

Plantas

0.06634

0.05448

0

0.01043

0.00439

0.08518

0.07353

0.03107

0.02036

Invert

0.08452

0.05841

0.01039

0

0.00932

0.07902

0.07168

0.03963

0.02683

Insect

0.06682

0.05170

0.00435

0.00926

0

0.06560

0.05692

0.02391

0.01658

Vert

0.21438

0.18980

0.08518

0.08004

0.06684

0

0.00341

0.02446

0.04659

 Mamíf

0.19883

0.17674

0.07456

0.07356

0.05824

0.00339

0

0.01905

0.03468

Prim

0.13529

0.12099

0.03080

0.03931

0.02363

0.02447

0.01894

0

0.01378

Homo

0.10931

0.09967

0.02037

0.02739

0.01637

0.04660

0.03500

0.01394

0

Tabla 3.1.4. Construcción de las matrices con la
Distancia de Hellinger.

 

Archea

Bact

Plantas

Invert

Insect

Vert

 Mamíf

Prim

Homo

Archea

0

 

 

 

 

 

 

 

 

Bact

0.0202

0

 

 

 

 

 

 

 

Plantas

0.0651

0.0555

0

 

 

 

 

 

 

Invert

0.0883

0.0612

0.0131

0

 

 

 

 

 

Insect

0.0691

0.0539

0.0057

0.0091

0

 

 

 

 

Vert

0.2237

0.2038

0.1062

0.0905

0.0810

0

 

 

 

 Mamíf

0.1756

0.1579

0.0657

0.0579

0.0480

0.0089

0

 

 

Prim

0.1377

0.1293

0.0350

0.0413

0.0254

0.0328

0.0136

0

 

Homo

0.1161

0.1080

0.0257

0.0304

0.0204

0.0568

0.0254

0.0135

0

1.7.        
Construcción de árboles de clasificación mediante
el método CHAID atendiendo a las frecuencias de
aminoácidos en proteínas

Durante el proceso de evolución molecular que tiene lugar
en cada organismo vivo se originan nuevas variantes mutacionales
de muchas de las proteínas que conforman el proteoma de
este. En el transcurso del tiempo evolutivo la acumulación
de mutaciones en genes duplicados deriva en el origen de nuevas
especies de organismos, de nuevas proteínas y de nuevas
variantes funcionales de proteínas ya existente en las
especies ancestros [31].

La aparición de nuevas proteínas en el proceso de
especiación pudo conducir a un cambio en la
distribución de las frecuencias de aminoácidos. En esta
sección proponemos dar respuesta a la primera pregunta de
investigación utilizando el método CHAID, el
método Discriminante y realizando una evaluación del
desempeño de estos clasificadores a través de las
curvas ROC y los parámetros calculados  a partir de la
matriz de confusión.

Para obtener los resultados primeramente se realizó una
validación cruzada, una validación al 70% de la muestra
inicial, una validación con una muestra externa de 20
vectores de probabilidades,  sin tener en cuenta que
contienen diferentes tipos de proteínas y solamente guiados
por la clasificación inicial de los 9 grupos, también
se realizó una validación cruzada y una validación
del 70% de la  muestra formada por la base llamada
extendida, por los resultados obtenidos en el análisis con
los 9 grupos se definieron las 6 taxas que reúnen de
diferentes formas a los grupos descritos anteriormente.

1.7.1.  Aminoácidos asociados con las
clasificaciones taxonómicas de organismos vivos.

Como primera etapa en nuestro análisis se aplicó el
método CHAID utilizando todas las bases de datos de
proteínas descritas en la sección 2.1. En todos los
análisis realizados los porcientos de clasificación
entre los 9 grupos de organismos no fueron aceptables, con riegos
superiores 27.1% en el entrenamiento y 41% en la validación
cruzada. Sin embargo, estos análisis nos permitieron
detectar que los 20 aminoácidos están asociados con la
clasificación taxonómica de las especies y clases
analizadas. En la Tabla 3.2.1.1 se muestran los aminoácidos
ordenados según sus niveles de significaciones.

El resultado obtenido es esperado desde el punto de vista
biológico, si tenemos en cuenta las variaciones en los
genomas y proteomas que tuvieron lugar durante el proceso de
evolución de los organismos vivos. Como fue explicado en el
capítulo 2 la aparición de nuevas especies
involucró la aparición de proteínas que no estaban
involucradas en procesos esenciales para todos los organismos
vivos. De manera que las variaciones en la distribución de
aminoácidos deben tender, en general, a ser mayores en la
medida que las especies son filogenéticamente más
lejanas. Además, si se tienen en cuenta los porcientos que
representan algunos genes que codifican para proteínas que
están presentes en un número importante de especies, el
resultado obtenido es de esperar (ver Fig. 2.1 y 2.2). Luego, la
significación estadística de la asociación de los
aminoácidos con los taxa debe variar dependiendo de los taxa
involucrados en el análisis.

Tabla 3.2.1.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

AA

Sig.

%clasificación

Ácido Aspártico

6.7531E-209

69,1

Ácido Glutámico

2.0188E-166

72,4

Triptófano

2.7178E-146

71,6

Valina

1.0947E-132

70,4

Leucina

1.0341E-121

69,8

Arginina

6.9567E-113

69,6

Alanina

1.2499E-108

69,6

Fenilalanina

1.7228E-105

71,6

Metionina

5.9298E-102

71,6

Histeina

5.38196E-92

69,3

Prolina

1.19184E-91

70,4

Aspargina

6.7187E-89

69,8

Isoleucina

1.43677E-84

71,1

Cisteína

1.00026E-80

68,2

Treonina

3.73344E-76

67,8

Lisina

1.0605E-75

68

Sirina

1.34548E-74

66

Glicina

7.06354E-54

68,7

Tirosina

1.1733E-50

68,7

Glutamina

1.83921E-47

69,1

 aSig. Significación del
estadígrafo de razón verosimilitud Chi-cuadrado. Por
simplificación se ha utilizado el simbolismo del SPSS para
la notación científica, es decir, por ejemplo, el
símbolo E-05 significa 10-5.

Figura 3.2.1.1A. Sección del árbol de
Aminoácidos asociados con los resultados de una
validación cruzada en la base curada con las clasificaciones
taxonómica de organismos vivos.

Estos resultados sugieren que el análisis se realice en
diferentes combinaciones de taxa en las que se reflejen
peculiaridades más específicas entre las especies
analizadas.

El árbol de clasificación abunda en información
biológicamente significativa, ver Anexo 4. En la Fig.
3.2.1.1A se muestra una sección del árbol donde se
puede apreciar que si el Ácido Aspártico posee un
número esperado de codones (NECD) entre
3.335 y 4.045, y si, además, para la Fenilalanina (nodo 5)
se cumple que NECF  ≤ 1.935 entonces
el 100% de las bacterias en este nodo se separa del resto de los
taxa. Mientras que si el NECF > 2.723
entonces el 100% de los invertebrados se separan del resto de los
taxa. Por otra parte, si el NECD > 4.045 y
si para la Alanina tenemos NECA ≤ 4.851
entonces el 93.8% de los vectores de distribución
corresponde a bacterias. Mientras que si NECA
> 4.851 entonces el 95.8 % de los vectores corresponde a
archaeabactarias. Además, si se cumplen las condiciones:
NECD > 4.045, NECA >
4.851 y NECG >5.057 entonces el 100% de los
vectores clasificados corresponde a archaeabacterias. Notemos que
los NECD, NECA y
NECG difieren notablemente de los números
esperados de codones en la Tabla 1.2.1 del código
genético estándar, hecho que nos sugiere una mayor
cercanía a la célula primordial (progenota) ver Anexo
1, para la cual el código genético primitivo pudo
encontrarse más alejado del óptimo que los códigos
actuales, manifestando valores no optimizados de los NEC
de estos aminoácidos (ver sección 1.2). Esta
observación está en correspondencia con los
planteamientos de los autores en [3, 8, 13, 38] expuestos en la
sección 1.2. Esta hipótesis biológica explica,
además, el porqué existe una separación completa
de los eucariotes (resto de los taxa) en estas ramas del
árbol, los cuales se encuentran filogenéticamente
más distantes del progenota.

En el resto de las ramas del árbol, en las que aparecen
los taxa eucariotes, los organismos procariotas están
ausentes, lo cual corrobora el hecho de que los
NECD, NECA y
NECG anteriormente mencionados caracterizan
realmente a toda la muestra de procariotas. Sin embargo, estas
ramas no aportan una buena clasificación, ver Anexo 4. No
obstante, como se muestra en la Tabla 3.2.1.1, el análisis
con el método CHAID de todos los taxa revela que los 20
aminoácidos están asociados de forma altamente
significativa con la clasificación taxonómica
(biológica).

Resultados comparables se obtienen con el análisis de
discriminante. En la Tabla 3.2.1.2 se presentan las correlaciones
canónicas de las funciones discriminantes canónicas con
los taxa y en la Tabla 3.2.1.3 las correlaciones de los
aminoácidos con las funciones discriminantes canónicas.
En particular, para la mayoría de estas funciones los
valores de correlación son altos, indicando un
desempeño aceptable de estas funciones en la
clasificacicón. Para la base de entrenamiento (70%) se
obtuvo un 87% de clasificación correcta, 83% en la
validación cruzada y un 80% en la validación externa.
De esta manera se verifica, una vez más, la asociación
de los aminoácidos con los taxa.

Tabla 3.2.1.2. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Sin embargo, estos hechos nos sugieren realizar un
análisis agrupando los taxa siguiendo criterios
biológicos con el propósito de alcanzar una mayor
significación estadística en la diferenciación de
los taxa. En particular, por su importancia biológica, se
consideran los grupos taxonómicos que divergen de un
ancestro común.

Tabla 3.2.1.3. Funciones discriminantes canónicas
obtenidas con la introducción de todos los aminoácidos
que satisfacen el test de tolerancia y con el método
Stepwise.

1.7.2.  Aminoácidos asociados con la
clasificación taxonómica en archaeabacterias, bacterias
y eucariotes.

Los resultados obtenidos en la clasificación de
organismos vivos nos sugiere limitar nuestro campo de
análisis para la clasificación de los tres reinos:
archaea, bacterias y eucariotes, partiendo de una base curada y
realizando una validación cruzada como se muestra en la
Tabla 3.2.2.1, se mantiene para este taxa la asociación
entre los 20 aminoácidos. Los porcientos de
clasificación  aumentan considerablemente lo cual
sugiere la ya demostrada hipótesis de la existencia de los
tres reinos bien definidos que forman el árbol
filogenético universal ver Anexo1. En la Tabla 3.2.2.1 se
observa que el Ácido Aspártico posee la mejor
significación para la ramificación del nodo inicial
entre todos los aminoácidos y los resultados del árbol
de clasificación son aceptables (ver Tabla 3.2.2.2 y Figura
3.2.2.1). Sin embargo, la Cisteína, aunque posee una menor
significación, alcanza 99,3 % de clasificación.

Tabla 3.2.2.1. Significación de los
aminoácidos al ser utilizados como variables predictoras en
la construcción de árboles de decisión y los
porcientos de clasificación alcanzados.

 AA

Sig.

%clasificación

Alanina

1.13359E-80

98

Cisteína

5.12355E-70

99,3

Ácido Aspártico

1.926E-137

98

Ácido Glutámico

1.6169E-121

98

Fenilalanina

3.35584E-86

98,4

Glicina

9.26829E-42

98,4

Histeina

2.04308E-93

97,6

Isoleucina

3.51131E-27

97,1

Licina

2.1581E-34

96,9

Leucina

2.39256E-60

97,6

Metionina

1.12471E-62

97,8

Aspargina

2.42534E-40

99,3

Prolina

1.02933E-76

96,7

Glutamina

3.86159E-21

97,3

Arginina

1.24853E-63

97,8

Serina

4.71165E-78

98,4

Treonina

1.68436E-17

96,9

Valina

6.4982E-98

98,7

Triptófano

1.1792E-101

98

Tirosina

4.6616E-46

97.3

aSig. Significación del estadígrafo
de razón verosimilitud Chi-cuadrado. Por simplificación
se ha utilizado el simbolismo del SPSS para la notación
científica, es decir, por ejemplo, el símbolo E-05
significa 10-5.

Tabla 3.2.2.2. Clasificación obtenida con
método CHAID en la bases de datos curada con validación
cruzada.

Figura 3.2.2.1. Árbol de Aminoácidos
asociados con los resultados en la base de datos curada con
validación cruzada en las clasificaciones taxonómicas
de archaea,  bacterias y eucariotes.

Tabla 3.2.2.3. Clasificación obtenida con
método CHAID en la bases de datos extendida con
validación cruzada.

Además de esto, el método CHAID nos permite detectar
los aminoácidos que interaccionan en esta
clasificación, lo cual resulta de gran interés desde el
punto de vista biológico, pues destaca el papel de conjunto
jugado por los aminoácidos en la diferenciación de los
taxa. En otras palabras, se han detectado interaciones
estadísticamente significativas entre los aminoácidos,
las cuales son, además, biológicamente significativas,
pues permiten derivar reglas de clasificación capaces de
diferenciar los taxa (ver Anexo 5). Se puede realizar una
discusión más abundante acerca de este interesante tema
pero está fuera del alcance y del objetivo de este
trabajo.

Realizando una validación cruzada a la base de datos
extendida los procientos de clasificación son igualmente
buenos, lo cual mostramos en la Tabla 3.2.2.3, mientras en el
árbol (ver Anexo 5) podemos observar que para esta base de
datos el aminoácido con mayor significación es la
Histidina y así aparece en el nodo principal.

La base usada en el análisis anterior se incrementó
en el número de secuencias y se formaron 200 nuevos vectores
NECK para cada taxa. En esta base se
seleccionó aleatoriamente el 70% de los datos como
entrenamiento y el resto para validación externa con el
propósito de aplicar, además de la técnica CHAID,
el análisis de discriminante y comparar el desempeño de
estos. En esta ocasión el aminoácido Serina fue el de
mayor significación para la ramificación del nodo
inicial del árbol. En la Tabla 3.2.2.4 se muestran los
resultados para este árbol.

Tabla 3.2.2.4. Clasificación obtenida con
método CHAID en la nueva base de datos extendida tomando
aleatoriamente el 70% de la base como entrenamiento y el resto
usado en validación externa. El árbol inicia su
ramifiación con el aminoácido Serina.

1.7.2.1.           
Análisis de Discriminante y la evaluación del
desempeño de los clasificadores.

Con el análisis de discriminante realizado en esta taxa
se corroboró el resultado, previamente obtenido con el
CHAID, de que todos los aminoácidos están asociados con
la clasificación de los vectores NECk en
los tres reinos. En la Tabla 3.2.2.1.1 se puede ver que, incluso,
aminoácidos como la Isoleucina y la Asparagina, los cuales
no están incluidos en las combinaciones lineales de las
funciones discriminantes cuando se utiliza el método
Stpwise, poseen correlaciones mayores que algunos de los
incluídos. La explicación de este hecho se encuentra en
la matríz de correlaciones mostrada en el Anexo 7, se puede
apreciar que la Isoleucina (r1 = -0.159 y
r2 = 0.38, en la Tabla 3.2.2.1.1), posee coeficientes
de correlación absolutos elevados y altamente significativos
(p < 0.01) con la Glutamina (-0.768), la Arginina
(-0.627), Alanina (-0.567) y la Lisina (-0.506), las cuales se
incluyen en las funciones discriminantes (Tabla 3.2.2.1.2).
Luego, si no se aplica un método Stepwise para la
introducción de las variables entonces debemos esperar que
todas las variables, que superen el test de tolerancia, esten
presentes en la combinación lineal que conforman las
funciones discriminantes, a pesar de que estás últimas
incluirán información redundante, la cual se evidencia
en las correlaciones existentes entre las mismas. En la Tabla
3.2.2.1.2 se presentan las funciones discriminantes obtenidas por
el método Stepwise minimizando la Lambda de Wilk y sin
aplicar este método.

Tabla 3.2.2.1.1. Correlaciones de las variables
discriminantes con las funciones discriminantes
canónicas.

Aminoácido

Función discriminante

1

2

Histidina

0.352*

-0.011

Ácido Aspártico a

-0.278*

-0.209

Ácido Glutámico

-0.274*

-0.009

Triptófano a

0.243*

-0.023

Valina

-0.200*

-0.193

Prolina a

0.200*

-0.166

Leucina a

0.180*

0.038

Treonina a

0.175*

0.034

Metionina

0.158*

0.080

Alanina

-0.058

-0.497*

Arginina

-0.012

-0.471*

Glutamina

0.191

-0.429*

Tirosina

-0.055

0.391*

Isoleucina a

-0.159

0.380*

Serina

0.350

0.377*

Asparagina a

-0.159

0.343*

Lisina

-0.262

0.338*

Cisteína

0.240

0.263*

Fenilalanina a

0.160

0.186*

Glicina

0.000

-0.042*

* La mayor correlación absoluta entre cada variable y las
funciones discriminantes obtenidas por el método Stepwise
minimizando la Lambda de Wilk.

a Aminoácidos que no se incluyen en la
combinación lineal de variables de las funciones
discriminantes.

Mientras, en la Tabla 3.2.2.1.3 se puede apreciar que la
eficacia de las funciones discriminates en la separación de
los casos en grupos, expresada a través de las correlaciones
canónicas, es similar para ambos procedimientos.
Además, los valores de la Lambda de Wilk y la
significación del test Chi-cuadrado indican que las
capacidades discriminatorias de las funciones obtenidas por estos
procedimientos son similares. En particular, para todas las
funciones los valores de estos parámetros son altos,
indicando el buen desempeño de las funciones
discriminantes.  

Los resultados de la clasificación global no son
estadísticamente diferentes para los métodos de
obtención de las funciones discriminantes y para el
método CHAID.

Tabla 3.2.2.1.2. Funciones discriminantes
canónicas obtenidas con la introducción de todos los
aminoácidos que satisfacen el test de tolerancia y con el
método Stepwise.

Aminoácido

Todas

Stepwise

Función discriminante

Función discriminante

1

2

1

2

Alanina

0.817868518

0.557817117

-0.634610589

-0.073293422

Partes: 1, 2, 3, 4, 5, 6, 7, 8
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter