Monografias.com > Física
Descargar Imprimir Comentar Ver trabajos relacionados

La aplicación de la teoría QSPR-QSAR en la predicción de actividades biológicas



Partes: 1, 2, 3, 4, 5, 6, 7

  1. Capítulo 1.
    Introducción
  2. Los
    Descriptores Moleculares
  3. Sobre
    el Diseño del Modelo
  4. Objetivo Específicos
  5. Breve
    reseña
  6. Capítulo 2. Técnicas de
    Clasificación
  7. El
    Problema de la Clasificación
  8. Análisis de Componentes Principales
    (PCA)
  9. Análisis Discriminante Lineal
    (LDA)
  10. Análisis de
    Agrupamiento
  11. Capítulo 3. Conjuntos Moleculares
    Ensayados
  12. Capítulo 4.
    Resultados
  13. Capítulo 5.
    Conclusiones
  14. Apéndice

Rafael Villamayor, Pablo R. Duchowicz y Eduardo A.
Castro*

INIFTA, División Quìmica
Teòrica, Suc.4, C.C. 16, La Plata 1900, Buenos Aires,
Argentina

Capítulo
1. Introducción

1. La Teoría QSAR/QSPR

El continuo interés por lograr predecir las distintas
propiedades fisicoquímicas, biológicas y
farmacológicas en sistemas reales conduce indudablemente a
la aplicación de métodos derivados de la
Mecánica Cuántica, con el fin de representar
adecuadamente el fenómeno involucrado. Esto se traduce en
la necesidad de tener en cuenta todas las interacciones presentes
en el sistema físico de partículas, lo cual hoy por
hoy parece ser una difícil tarea, en vista de que los
cálculos mecanocuánticos actuales sólo
pueden resolverse con buena aproximación cuando el sistema
involucra unos pocos átomos no-interactuantes. Si bien el
uso de aproximaciones matemáticas permite resolver el
problema de partículas interrelacionadas entre sí,
debido a la incertidumbre de dicho método, no siempre
será posible justificar la calidad de los resultados
encontrados. Por otro lado, los cálculos
mecanocuánticos ayudan a la comprensión de los
aspectos mecanísticos que originan a las propiedades en
cuestión, pero no resultan la herramienta adecuada para el
estudio del efecto que tiene la estructura molecular sobre las
propiedades macroscópicas de las sustancias
químicas.

La Teoría QSAR/QSPR, (Relaciones Cuantitativas
Estructura-Actividad/Estructura-Propiedad) ofrece una alternativa
a la hora de calcular las propiedades de una colección de
moléculas1. Cuando nos detenemos a observar un conjunto de
estructuras moleculares junto con sus propiedades experimentales
medidas, la pregunta inmediata que surge es
¿existirá una correlación directa entre la
propiedad y la estructura de estas sustancias? La respuesta es
afirmativa, y es la hipótesis principal de la
Teoría QSAR/QSPR. La misma es una hipótesis
matemática fundamentada en el hecho de que la estructura
de una molécula es la principal responsable de sus
propiedades químicas, fisicoquímicas,
biológicas o farmacológicas2-4. Quizás una
de las premisas fundamentales de la teoría es el Principio
de Similaridad Estructural, que establece que estructuras
moleculares similares poseen propiedades similares, mientras que
estructuras moleculares diferentes manifiestan propiedades
diferentes5. Si bien es conocido desde hace mucho tiempo el hecho
de que distintas sustancias tienen diferentes efectos
biológicos, el avance en la determinación de
estructuras permitió establecer relaciones
estructura-actividad (SAR), las cuales evidencian ciertos efectos
en las actividades biológicas a partir del cambio en la
estructura química de un determinado compuesto6.

Los modelos QSAR también nacen en el campo de la
Toxicología. De hecho, los intentos por cuantificar
relaciones entre la estructura química y la toxicidad
aguda han sido parte de la literatura toxicológica por
más de 100 años. Las primeras evidencias se
remontan al año 1863, cuando en la defensa de su tesis en
la University of Strasbourg, Strasbourg, Francia, J. Cros
notó las relaciones existentes entre la toxicidad de
alcoholes alifáticos primarios y su solubilidad en agua7.
Esta relación demuestra el axioma central del modelado de
la relación estructura-toxicidad. Por lo tanto, existen
interrelaciones entre estructura, propiedades y toxicidad. Casi
un siglo después Corwin Hansch et al8. publicó su
famoso artículo sobre la actividad biológica de
grupos de compuestos congéneres y con ello sentó la
base para el desarrollo de la actual Teoría
QSAR/QSPR.

La Teoría QSAR/QSPR busca cuantificar las
relaciones SAR a través del desarrollo de modelos, y
combina métodos de la Estadística Matemática
con la Química Computacional. Tales modelos se vuelven
vitales a la hora de predecir el valor de la propiedad de una
sustancia si ésta es desconocida por resultar
difícil de adquirir, sea por su inestabilidad, toxicidad,
costo económico, etc. Así también la
teoría ha sido ampliamente utilizada para el diseño
y optimización de compuestos tipo-droga, y hasta para
inferir resultados sobre mecanismos de reacción de
compuestos orgánicos.

Con el fin de establecer un modelo de
cuantificación apropiado, un requisito indispensable es
disponer de un conjunto de moléculas para las cuales se
conocen perfectamente los valores experimentales de la propiedad
estudiada. El diseño de un modelo implica su
calibración y posterior validación. La
calibración establece con exactitud la correspondencia
entre la estructura y la propiedad analizada a través de
la creación del modelo y determinación de los
parámetros ajustables de los que depende. La
función matemática (lineal/no-lineal) que
cuantifica la relación estructura-propiedad se elige de
forma arbitraria y la simplificación del modelo
matemático dependerá de aquella expresión
que determine las mejores predicciones. La validación
certifica la veracidad del modelo obtenido, es decir, verifica si
posee o no poder predictivo sobre moléculas no
contempladas en el ajuste del modelo, y que también deben
poseer información conocida de la propiedad
experimental.

Pero, ¿cómo representar fielmente las
relaciones entre la estructura y la propiedad? Desafortunadamente
no existe una vinculación directa entre ambas
características, por lo cual la teoría se vale de
distintos índices numéricos que codifican la
información estructural y ayudan a establecer las
relaciones buscadas, estos índices son los denominados
descriptores moleculares.

2. Los
Descriptores Moleculares

Más estrictamente, un descriptor molecular es el
resultado final de una lógica y de un procedimiento
matemático que transforma la información
química codificada dentro de una representación
simbólica de una molécula en un número
útil o el resultado de algún experimento
estandarizado9. Estas variables pueden ser teóricas o
experimentales, pueden describir a la molécula como un
todo (descriptores globales) o solo representar un fragmento
presente en ella (descriptores fragmentos). Generalmente, un gran
número de descriptores moleculares surgen de diferentes
teorías, tales como la Teoría de Orbitales
Moleculares, la Teoría de Grafos, La Mecánica
Cuántica, entre otras.

Ahora bien, puede suceder que una combinación
apropiada de números describa adecuadamente la propiedad
en cuestión, pero que no dejen de ser eso, solo "simples
números". Así, es requisito fundamental que los
descriptores posean algún tipo interpretación
química, y si ese no fuera el caso, que sí puedan
derivarse en base a la estructura. Un ejemplo clásico de
descriptor lo constituye el número de átomos de una
especie química en la molécula, como la cantidad de
átomos de carbono en una familia de bencenos o él
numero de átomos de cloro en especies
clorofluorocarbonadas; la cantidad de enlaces C-C puede ser otro
ejemplo de descriptor. Otros descriptores relacionados con
propiedades fisicoquímicas pueden ser el índice de
refracción, las entalpías de vaporización
(?Hv), el coeficiente de partición octanol/agua (Kow), los
puntos de ebullición, los volúmenes molares,
etc.

A continuación describiremos los rasgos
más relevantes de algunas de las familias de descriptores
moleculares más frecuentemente utilizados en la
representación de la estructura molecular. No
profundizaremos en detalle en cada una de ellas debido a lo
amplio y extenso del tema.

2.1. Descriptores de la Teoría de Grafos
Química

La Teoría de Grafos10 es una rama de la
Matemática Discreta relacionada a la topología y
a la combinatoria, y está vinculada con la manera en que
los objetos están conectados. Un grafo es una
representación bidimensional de la molécula.
Estructuralmente, un grafo puede verse como un conjunto de
vértices o nodos, unidos por medio de aristas o arcos, en
la representación molecular los nodos serían los
átomos y las aristas los enlaces. Por ejemplo en el
benceno los átomos C son los nodos y los enlaces C-C las
aristas.

Los descriptores que se obtienen a partir de la
Teoría de Grafos sólo proporcionan
información de constitución y conectividad y, por
tanto, no pueden discernir isómeros de una misma
molécula. Se pueden definir diversos tipos de
índices topológicos, entre los más conocidos
encontramos:

Indice de Wiener (W)11

Monografias.comdonde
Monografias.comrepresenta la
distancia topológica entre los vértices Monografias.comy Monografias.comsi se considera el camino de longitud
más corta. La longitud u orden del camino es el
número de aristas que lo componen.

Indice de conectividad molecular (??12

Monografias.comdonde
Monografias.comes el grado de
degeneración del vértice Monografias.comy representa el número de
vértices adyacentes al mismo.

2.2. Indices de la Teoría de la
Información

A menudo sucede que gran cantidad de los índices
topológicos calculados poseen alto grado de
degeneración. El concepto de degeneración de un
descriptor molecular se aplica a aquellos descriptores que posean
el mismo valor numérico para estructuras diferentes. La
Teoría de la Información13 ofrece una alternativa
para disminuir el grado de degeneración de los
descriptores topológicos. La aplicación se basa en
darle a la molécula representada por un grafo una cierta
distribución de probabilidad respecto a la complejidad que
posea, y desde allí aplicar la Teoría de la
Información.

2.3. Descriptores para Interacciones
Químicas

Estos descriptores caracterizan las interacciones
químicas14 que participan en la molécula tanto a
nivel global como local, es decir, refiriéndose a un
sector de la molécula o tratándola como un todo.
Estas interacciones implican cambios topológicos,
geométricos y electrónicos, por lo cual los
descriptores suelen combinar algunos de estos
aspectos.

2.4. Descriptores del Dragon

El programa Dragon15 ofrece la posibilidad de calcular
un gran número de descriptores moleculares agrupados en
diferentes familias. A su vez, la lista de descriptores
proporcionados puede ser organizada como cerodimensionales (0D),
unidimensionales (1D), bidimensionales (2D), y tridimensionales
(3D); para simplificar la descripción utilizaremos esta
última clasificación. Los descriptores calculados
en este trabajo son obtenidos con la aplicación de este
programa y son cantidades teórico-definidas; no se
utilizan descriptores experimentales.

Descriptores 0D: describen solamente la
constitución de la molécula, pero no dicen nada
sobre la conformación ni tipo de conectividad presente.
Los más simples son el número de átomos de
un determinado tipo, el número de enlaces y el peso
molecular, entre otros.

Descriptores 1D: describen fragmentos de las
moléculas constituidos por el agrupamiento de sus
átomos constituyentes.

Descriptores 2D: utilizan una función de
autocorrelación bidimensional que contiene la
topología del grafo, y además representa la
distribución de una propiedad atómica determinada
en la molécula. La propiedad atómica con la que se
pesa/pondera al descriptor considera los átomos presentes
en la molécula a través de la electronegatividad,
masa atómica, polarizabilidad atómica, estado
electrotopológico o volumen de Van der Waals, con lo cual
se pueden seleccionar aquellos átomos que dan mayor peso a
la variable. Estos descriptores tienen en cuenta las
interacciones inter/intra-moleculares.

Descriptores 3D: esta clase tiene en cuenta los aspectos
conformacionales de la estructura molecular, considerando de esta
manera las propiedades estereoquímicas de las
moléculas. Para su cálculo se utilizan estructuras
moleculares previamente optimizadas con métodos
convenientes, tales como el Método de Campos de Fuerza de
la Mecánica Molecular MM+, en combinación con
métodos derivados de la Mecánica Cuántica,
sean ab initio o Métodos de la Teoría de
Orbitales Moleculares Semiempírica. Entre estos
descriptores citamos las cargas atómicas, la
energía del orbital molecular más alto ocupado () y
la energía del orbital molecular más bajo
desocupado (), entre otros. Un descriptor debe cumplir con un
conjunto de características tales como:

  • i. Fácil cálculo

  • ii. Invarianza respecto de la traslación
    y la rotación

  • iii. Invarianza respecto a la numeración
    de los átomos

  • iv. Buena correlación con la propiedad
    estudiada

  • v. Bajo grado de correlación con otros
    descriptores

3. Sobre el
Diseño del Modelo

Durante el diseño de los modelos QSAR/QSPR
resulta de fundamental importancia seleccionar los descriptores
moleculares más influyentes para predecir la propiedad
analizada. Existen dos métodos generales para la
selección de descriptores moleculares. El primero de ellos
consiste en valerse de la experiencia, de las
características observables y perceptibles de las
moléculas de estudio, y del posible mecanismo subyacente.
Por ejemplo, la fotohidrólisis es una de las vías
principales para la fotólisis de compuestos
aromáticos hidrogenados, así varios descriptores
químicocuánticos que caracterizan los enlaces C-X
fueron calculados y empleados para el desarrollo de modelos QSAR
que describan los rendimientos cuánticos de
fotólisis de compuestos halogenados16, 17. Por otro lado,
el segundo método se basa en realizar un estudio
combinatorial de los descriptores estructurales y seleccionar
aquellos que sean más predictivos.

La ortogonalización de los descriptores
moleculares busca facilitar el desarrollo de un modelo
óptimo, reduciendo así el número de
descriptores objeto de análisis y la dimensión del
problema matemático a tratar, por la eliminación de
la intercorrelación existente entre dichas variables. Sin
embargo, se ha demostrado que la calidad estadística
obtenida con el uso de variables no-ortogonales no difiere de la
hallada con variables ortogonales18.

Las moléculas estándares que constituyen
el llamado conjunto de calibración servirán como
"moléculas objetivo", pues representan moléculas a
las cuales las moléculas de validación
deberán imitar, copiar, seguir, aproximarse y lo
más deseable, superar en calidad predictiva19. Es preciso
que las moléculas del conjunto de validación posean
estructuras congruentes con las del conjunto de
calibración, pues ello influirá directamente en la
calidad predictiva del modelo. Una determinada selección
de moléculas de calibración y de validación
en conjuntos moleculares homogéneos/heterogéneos
influenciará considerablemente en los resultados finales
que se obtengan con posterioridad con los modelos QSAR/QSPR, y el
modelo establecido tendrá algún significado
estadístico en la medida que se utilicen conjuntos
adecuados.

Finalmente, es esperable que un modelo sencillo que
presente error de predicción de la propiedad durante la
calibración supere el proceso de validación, en
comparación de uno que sea más exacto y sin error
de calibración, pues este último se ajusta
excesivamente o "memoriza" al conjunto de calibración y de
esta manera es incapaz de predecir la propiedad en
cuestión durante la validación. Además, se
busca que el error cometido por el modelo en la etapa de
calibración sea similar al encontrado durante la etapa de
su validación. Si esto se cumple, el modelo resulta
más general y predictivo sobre los datos, y se asigna
igual preferencia al ajuste de los datos en los conjuntos de
calibración y validación.

4. Objetivo
Específicos

El objetivo principal del presente Trabajo de Tesina
consiste en estudiar diferentes técnicas
estadísticas de clasificación molecular que
permitan el armado de conjuntos moleculares de calibración
y validación balanceados, es decir, conjuntos que posean
similares errores de predicción de la propiedad
considerada. Se busca así seleccionar la
metodología que mejor funcione para poder implementarla en
el trabajo de investigación QSAR/QSPR cotidiano. Para
ello, se abordan las técnicas: Análisis de
Agrupamiento Jerárquico20, Análisis de Componentes
Principales21, Análisis Discriminante Lineal22,
Análisis de Agrupamiento K-Medias23 y K-Vecinos Más
Cercanos24. La formulación de relaciones
estructura-actividad/propiedad está basada en la
técnica del Análisis de Regresión Lineal, y
considera los aspectos multidimensionales de la estructura por
medio del análisis de más de mil descriptores
moleculares calculados con el programa Dragon. Se compara la
bondad de estos métodos clasificadores de objetos sobre
tres bases de datos diferentes, a saber: solubilidades acuosas de
166 compuestos orgánicos heterogéneos tipo-droga25,
128 actividades anti-VIH-1 de compuestos
heterocíclicos26-29, y 470 toxicidades acuosas en
compuestos alifáticos heterogéneos30.

5. Breve
reseña

Resulta crucial establecer una adecuada
clasificación molecular en todo estudio QSAR/QSPR. En el
capítulo 2 estudiamos distintos métodos de
reconocimiento de patrones que permiten armar conjuntos
moleculares balanceados que conducen a los mejores resultados.
Sin embargo, puede suceder que un método determinado pueda
clasificar a las moléculas mejor en una propiedad
determinada que en otra. En el Capítulo 3, presentamos las
tres propiedades macroscópicas ensayadas, junto con una
breve descripción de los sistemas elegidos. Los resultados
obtenidos se presentan en el Capítulo 4, mientras que las
conclusiones principales del trabajo aparecen en el
Capítulo 5.

El siguiente esquema resume cada uno de los pasos a
seguir en un estudio QSAR/QSPR.

Monografias.com

Referencias

1.
Hansch, C., Leo, A., Exploring QSAR. Fundamentals and
Applications in Chemistry and Biology
. American Chemical
Society: Washington, D. C., 1995.

2. King, R. B., Chemical Applications of Topology
and Graph Theory. Studies in Physical and Theoretical
Chemistry
. Elsevier: Amsterdam, 1983.

3. Sexton, W. A., Chemical Constitution and
Biological Activity
. D. Van Nostrand: New York,
1950.

4. Hansch, C., Fujita, T., A quantitative approach to
biochemical structure-activity relationships. Acc. Chem.
Res.
1969, 2, 232.

5. Johnson, A. M., Maggiora, G. M. , Concepts and
Applications of Molecular Similarity
. John Willey &
Sons: New York, 1990.

6. Carbó-Dorca, R., Robert, D., Amat, L. I.,
Jirones, X., Besalú, E., Molecular Quantum Similarity
in QSAR and Drug Research
. Springer-Verlag: Berlin,
2000.

7. Cros, J. Action de l"alcool amylique sur l"organisme.
University of Strasbourg, Strasbourg, France, 1863.

8. Hansch, C., Fujita, T., A Method for the Correlation
of Biological Activity and Chemical Structure. J. Am. Chem.
Soc
1964, 86, 1616.

9. Todeschini, R., Consonni, V., Molecular
Descriptors for Chemoinformatics
. WILEY-VCH: Weinheim,
2009.

10. Trinajstic, N., Chemical Graph Theory. CRC
Press: Boca Raton, FL, 1992.

11. Hosoya, H., A Newly Proposed Quantity Characterizing
the Topological Nature of Structural Isomers of Saturated
Hydrocarbons. Bull. Chem. Soc. Jpn 1971, 44,
2332.

12. Randic, M., Characterization of molecular branching.
J. Am. Chem. Soc 1975, 97, 6609.

13. Jayalakshmi, R., Natarajan, R., Vivekanandan, M.,
Descriptors based on information theory for numerical
characterization of DNA sequence. Current Science
2010, 99, (3), 370.

14. Estrada, E., Montero, L. A., Bond order weighted
graphs in molecules as structure-property indices. Molec.
Engineering
1993, 2, 363.

15. Milano Chemometrics and QSAR Research Group.
http://michem.disat.unimib.it/chm.

16. Chen, J. W., Quan, X., Schramm, K-W., Kettrup, A.,
Yang. F. L., Quantitative structure-property relationships
(QSPRs) on direct photolysis of PCDDs. Chemosphere
2000, 45, (2), 151.

17. Free, S. M., Wilson, J. M., A mathematical
contribution to structure-activity studies. J Med Chem
1964, 7, (4), 395.

18. Fernandez, F. M., Duchowicz P. R. , Castro E. A. ,
About Orthogonal Descriptors in QSPR/QSAR Theories. Commun.
Math. Comput. Chem. (MATCH)
2004, 51, 39.

19. Randic, M., Resolution of Ambiguities in
Structure-Property Studies by Use of Orthogonal Descriptorst.
J. Chem. Inf. Comput. Sci 1991, 31,
311.

20. Matlab 7.0, The MathWorks, Inc. http://www.mathworks.com

21. Niemi, G. J., Practical Applications of
Quantitative Structure-Activity Relationships (QSAR) in
Environmental Chemistry and Toxicology
. Kluwer Academic
Publishing: Dordrecht, 1990.

22. Hubert, C. J., Applied Discriminant
Analysis
. Wiley-Interscienc: New York, 1994.

23. Kowalski, R. B., Wold, S., Pattern recognition in
chemistry

In Handbook of statistics, North Holland
Publishing Company: Amsterdam, 1982; p 673.

24. Cover, T., Hart, P., Nearest neighbor pattern
classification. In IEEE Transactions on Information
Theory
, 1967; Vol. 13, p 21.

25. Duchowicz, P. R., Talevi, A., Bruno-Blanch, L. E.,
Castro, E. A., New QSPR study for the prediction of aqueous
solubility of drug-like compounds. Bioorganic & Medicinal
Chemistry
2008, 16, 7944.

26. Seto, M., Aramaki, Y., Imoto, H., Aikawa, K., Oda,
T., Kanzaki, N., Iizawa, Y., Baba, M., Shiraishi, M., Orally
Active CCR5 Antagonists as Anti-HIV-1 Agents 2: Synthesis and
Biological Activities of Anilide Derivatives Containing a
Pyridine N-Oxide Moiety. Chem. Pharm. Bull. 2004,
52, (7), 818.

27. Imamura, S., Ichikawa, T., Nishikawa, Y., Kanzaki,
N., Takashima, K., Niwa, S., Iizawa, Y., Baba, M., Sugihara, Y.,
Discovery of a Piperidine-4-carboxamide CCR5 Antagonist (TAK-220)
with Highly Potent Anti-HIV-1 Activity. J. Med. Chem.
2006, 49, 2784.

28. Imamura, S., Ishihara, Y., Hattori, T., Kurasawa,
O., Matsushita, Y., Sugihara, Y., Kanzaki, N., Iizawa, Y., Baba,
M., Hashiguchi, S., CCR5 Antagonists as Anti-HIV-1 Agents. 1.
Synthesis and Biological Evaluation of
5-Oxopyrrolidine-3-carboxamide Derivatives. Chem. Pharm.
Bull.
2004, 52, (1), 63.

29. Imamura, S., Nishikawa, Y., Ichikawa, T., Hattori,
T., Matsushita, Y., Hashiguachi, S., Kanzaki, N., Iizawa, Y.,
Baba, M., Susihara, Y., CCR5 antagonists as anti-HIV-1 agents.
Part 3: Synthesis and biological evaluation of
piperidine-4-carboxamide derivatives. Bioorganic &
Medicinal Chemistry
2005, 13, 397.

30. Duchowicz, P. R., Ocsachoque, M. A., Quantitative
Structure-Toxicity Models for Heterogeneous Aliphatic Compounds.
QSAR & Combinatorial Science 2009, 28, (3),
281.

Capítulo
2. Técnicas de Clasificación

1. El Problema de
la Clasificación

La clasificación es el proceso de división
de un conjunto de objetos en grupos mutuamente excluyentes, de
manera tal que los miembros de cada grupo se hallen lo más
cerca posible el uno al otro, y los de diferentes grupos lo
más lejos posible1. La cercanía se mide respecto a
una determinada variable que forma la predicción. No
existe en general una regla que permita definir la mejor
aproximación a un problema de clasificación en
particular2, 3, pero la selección adecuada de los
descriptores moleculares clasificadores resulta ser esencial en
la Teoría QSAR/QSPR.

Una de las estrategias más comunes para el
desarrollo de relaciones cuantitativas específicas
está basada en la clasificación de moléculas
según su funcionalidad química, lo cual resulta
sencillo desde el punto de vista práctico. Sin embargo,
puede suceder que dos moléculas determinadas tengan los
mismos grupos funcionales y distinto valor en sus propiedades
macroscópicas, lo que hace este esquema de
clasificación un tanto problemático.

Entre las técnicas de clasificación de
datos más difundidas en la literatura encontramos al
Análisis de Componentes Principales (PCA)4,
Análisis Discriminante (DA)5, Análisis de
Agrupamiento (CA)6, y otras pertenecientes al campo de las Redes
Neuronales (ANN), como pueden ser las Redes Neuronales de
Retro-Propagación (BPNN)7 o los Mapas de
Auto-Organización de Kohonen (SOM)8. Por su parte, la
Teoría de la Lógica Difusa (FLT)9, 10 representa
una herramienta alternativa del área de la Inteligencia
Artificial aplicable a problemas de clasificación, y que
consigue modelar razonablemente conceptos difusos relacionados a
la incerteza o imprecisión. Dentro de dicha teoría
se han reportado los algoritmos de Agrupamiento Difuso (FC)11 y
de Partición Difusa Adaptativa (AFP)12.

El diseño de conjuntos moleculares balanceados
posee gran interés como paso previo al tratamiento
racional QSAR/QSPR. En este capítulo describimos de manera
general los métodos estudiados/aplicados en el presente
Trabajo de Tesina, a saber: Análisis de Agrupamiento
Jerárquico, Análisis de Componentes Principales,
Análisis Discriminante Lineal, Análisis de
Agrupamiento K-Medias y K-Vecinos Más Cercanos. Si bien no
se han explorado totalmente las numerosas técnicas que hoy
por hoy aparecen en la literatura, tratamos de considerar el
mayor número de ellas.

2.
Análisis de Componentes Principales
(PCA)

Uno de los problemas inherentes en Estadística
Multivariable es la dificultad de visualización de datos
que dependen de gran cantidad de variables. Si bien un simple
gráfico en dos o tres dimensiones facilita la
interpretación, la existencia de cuatro o más
variables dificulta la visualización de las relaciones
existentes. Afortunadamente, en un conjunto de datos con muchas
variables los grupos de variables a menudo se mueven juntos. Una
consecuencia de ello es que más de una variable puede ser
la fuerza impulsora que gobierna el comportamiento del sistema,
con lo cual estamos frente a un problema de redundancia de
información.

Es posible simplificar la dimensión del problema
matemático mediante la sustitución de un grupo de
variables correlacionadas (X) por una única nueva
variable (PC). El Análisis de Componentes
Principales es un método cuantitativamente riguroso basado
en la correlación de los datos, utilizado para llevar a
cabo esta simplificación. El método genera un nuevo
conjunto de variables, llamadas componentes principales (PC).
Cada uno de los PC es una combinación lineal de las
D variables originales, y que resultan ortogonales entre
sí, con lo cual no existe información
redundante:

Monografias.com
(1)

En esta ecuación, PCi es el
i-ésimo componente principal, y Monografias.comes el coeficiente de la
j-ésima variable para ese componente.

El número de componentes principales coincide con
el número de variables independientes utilizadas para
derivarlos. En la práctica, para un problema particular se
selecciona el número de PC de manera que la suma de las
varianzas de los primeros PC exceda el 80% de la varianza total
de los datos originales. Cada componente principal se extrae en
orden decreciente de varianza explicada por tal componente en el
conjunto de datos. Una vez que se ha eliminado la redundancia,
sólo los primeros componentes son requeridos para
describir la mayor parte de la información contenida en el
conjunto original de datos. Este enfoque ayuda a separar los
componentes importantes de aquellos que sólo expliquen una
variabilidad al azar.

Existen infinitas formas de construir una base ortogonal
para el espacio de los datos, por lo cual: ¿qué hay
de especial en el conjunto de componentes principales?
Aquí, el primer componente principal (PC1) es un
eje sencillo cuya dirección es convenientemente elegida en
el espacio. Cuando se proyecta cada observación sobre el
eje PC1, los valores resultantes forman una nueva
variable denominada coordenada PC1, cuya varianza es
máxima respecto de toda posible elección del primer
eje. El segundo componente (PC2) es otro eje
perpendicular al primero; si se proyectan las observaciones sobre
este eje se genera una nueva variable denominada coordenada
PC2, cuya varianza es la máxima entre todas las
opciones posibles del segundo eje. Los componentes restantes se
toman ortogonales a los previamente seleccionados y describen la
varianza máxima de los datos.

Ventajas y desventajas del método
PCA

Ventajas:

  • Puede constituir un camino para determinar la
    dimensionalidad efectiva de un conjunto de datos.

  • Al ser los PC ortogonales entre sí,
    las comparaciones hechas entre objetos con respecto a sus
    coordenadas en un dado PCi no están
    correlacionadas con comparaciones que estén basadas en
    las coordenadas en otro PCj.

Desventajas

  • Es frecuente no encontrar interpretación
    alguna de los componentes obtenidos. Cada componente es una
    combinación lineal de variables que reflejan distintas
    características de las observaciones.

  • Los componentes principales no son invariantes a
    transformaciones lineales de las variables. Por lo tanto, las
    componentes se modifican si las variables se
    estandarizan.

3. Análisis
Discriminante Lineal (LDA)

En el Análisis Discriminante, el punto de partida
es un conjunto de objetos clasificados en dos o más
grupos. De estos objetos, se conocen sus variables atributo. Al
reconocer de antemano la existencia de estos grupos, parece
lógico pensar que existen variables cuyo valor
numérico determina la pertenencia a uno u otro grupo. Los
objetivos del Análisis Discriminante son:

  • i.  La identificación de variables
    atributo que mejor discriminen entre los grupos y la
    evaluación del poder discriminante de cada una de
    ellas.

ii. Asignar, con un cierto grado de riesgo, un objeto
del que no se conoce su clasificación y del que se conocen
las variables atributo.

Como técnica de análisis de dependencia,
LDA permite obtener un modelo lineal de causalidad en el cual la
variable dependiente puede ser métrica o
categórica, y las variables independientes son
métricas, continuas y determinan a qué grupo
pertenecen los objetos. Se trata de encontrar relaciones lineales
entre las variables que mejor discriminen a los grupos iniciales
de objetos. Además, se trata de definir una regla de
decisión que asigne un nuevo objeto a uno de los grupos
prefijados. Para más información sobre el
método LDA y la manera con que asignan objetos, ver
Apéndice, sección I.

Ventajas y desventajas del método
LDA

Ventajas:

  • La técnica LDA es fácil de
    aplicar.

  • Las probabilidades de pertenencia a un grupo dado
    son fáciles de obtener.

  • Está disponible en muchos programas
    estadísticos.

Desventajas:

  • Las suposiciones de normalidad e igualdad de
    varianzas no siempre se cumplen en las variables del
    modelo.

  • La clasificación de nuevas observaciones no
    es muy eficiente a medida que se incrementa el número
    de variables del modelo. Se acostumbra a seleccionar
    variables antes de aplicar LDA.

  • Requiere que se especifiquen los grupos del conjunto
    de entrenamiento del modelo con clases prefijadas.

4.
Análisis de Agrupamiento

El análisis de agrupamiento, también
llamado análisis de segmentación o análisis
de taxonómico, crea grupos o agrupaciones de datos. Estas
agrupaciones están formadas de tal manera que los objetos
en el mismo grupo son muy similares y los objetos en grupos
diferentes son muy distintos. Podemos encontrar distintos tipos
de análisis, divididos generalmente en dos grandes
categorías:

  • Jerárquicos: construyen una jerarquía
    de agrupamiento

  • Particionamiento: el número de grupos se
    determina de antemano y las observaciones se asignan a tales
    grupos según su proximidad o
    cercanía.

4.1. Análisis de Agrupamiento
Jerárquico (HCA)

Agrupa los objetos mediante la creación de un
árbol jerárquico o dendrograma. El árbol no
es simplemente un conjunto de grupos, sino más bien una
jerarquía de múltiples niveles, donde los
agrupamientos en un nivel dado aparecen unidos como agrupamientos
del nivel siguiente. Ello permite decidir el nivel o grado de
agrupamiento que resulta más apropiado para la
aplicación particular. Uno de los pasos más
importantes del HCA lo constituye la búsqueda de similitud
o disimilitud entre los objetos en el conjunto de datos, por lo
cual existe una gran variedad de formas de calcular esta medida.
Para llevar a cabo un HCA se sigue el procedimiento a
continuación:

a. Encontrar la similitud o disimilitud entre los
objetos

En este paso se calcula la distancia entre cada par de
objetos para un método de medida definido. En el caso de
un conjunto de datos formado por M objetos, existen
Monografias.compares posibles, y
las distancias generadas para dichos pares conducen a una matriz
distancia o disimilaridad. La medida de distancia entre objetos
más comúnmente utilizada es la distancia
Euclídea. Sin embargo, uno podría utilizar otras
opciones como: distancia Euclídea estandarizada, distancia
Mahalanobis, distancia Manhattan, o distancia Minkowski, entre
otras, más información en Apéndice,
sección II. A veces sucede que en el conjunto de datos
utilizados las variables poseen diferentes escalas o diferentes
unidades. Estas discrepancias pueden influir directamente a la
hora de realizar el cálculo de proximidad, por lo cual
como paso previo al cálculo de la matriz distancia es
posible estandarizar/normalizar los valores de los datos a fin de
utilizar la misma escala proporcional.

b. Agrupar los objetos en el dendrograma

En este paso se enlazan los objetos o agrupamientos
más próximos entre sí, mediante una
función de enlace o vinculación. La función
de vinculación utiliza la información de las
distancias obtenidas en el paso anterior, y asocia inicialmente
los pares de objetos más próximos en grupos
binarios. A continuación, vincula estos grupos con otros
objetos más lejanos para crear agrupamientos binarios de
mayor tamaño, hasta que todos los objetos del conjunto de
datos original forman el árbol jerárquico. Existen
diferentes métodos de vinculación disponibles, los
métodos difieren entre sí en la forma de medir la
distancia entre agrupamientos. Por ejemplo, el método de
Vinculación Individual utiliza la distancia más
cercana entre pares de objetos o grupos; otro caso como el
método de Vinculación Promedio utiliza la distancia
promedio entre todos los elementos en cualquiera de las dos
agrupaciones, etc. Más detalles se presentan en el
Apéndice, sección III.

c. Especificar el grado de agrupamiento
buscado

En general, pueden crearse agrupamientos de datos si se
detectan agrupaciones naturales en el árbol
jerárquico, o sino a través de realizar un corte
horizontal arbitrario del dendrograma. En este último
caso, se busca que el corte horizontal intersecte las
líneas verticales del gráfico, y esto genera el
número de grupos dependiente de la posición del
corte.

d.1. Representación gráfica de HCA:
dendrograma

La jerarquía creada a través de la
generación de agrupamientos binarios mediante las
funciones de vinculación puede ser fácilmente
entendida cuando se visualiza gráficamente. El dendrograma
resultante tiene la siguiente estructura:

Monografias.com

En la figura, los números a lo largo del eje
horizontal representan los índices de los objetos en el
conjunto de datos original, mientras que el eje vertical mide la
distancia. La vinculación entre objetos o grupos se
representa como líneas en forma de U invertidas. La altura
de U señala la distancia entre grupos.

d.2. Verificación de disimilaridad

En un árbol de agrupamiento jerárquico,
cualquier par de objetos en el conjunto de datos original
está eventualmente vinculado en algún nivel. La
altura de la vinculación en el dendrograma representa la
distancia entre ambos objetos, y es conocida como la distancia
cofenética para el par de objetos. Una manera de medir la
bondad o precisión del árbol de agrupamiento es
comparar las distancias cofenéticas con las distancias
generadas en la primera etapa del análisis (punto a). Si
el agrupamiento es válido, la vinculación de
objetos en el árbol jerárquico debería tener
una fuerte correlación con la distancia entre objetos. El
coeficiente de correlación cofenético compara ambas
distancias, y un valor cercano al valor uno sugiere que la
solución de agrupamiento encontrada representa a los
datos.

d.3. Verificación de consistencia

Una manera de detectar divisiones naturales en los datos
es comparar las alturas de cada enlace en el árbol
jerárquico con las alturas de los enlaces vecinos que se
encuentran por debajo. Un enlace que está aproximadamente
a la misma altura que un enlace que se encuentra por debajo
sugiere que no hay divisiones claras entre los objetos unidos. Se
dice que estas vinculaciones presentan un alto nivel de
consistencia, pues la distancia entre los objetos que se han
unido es semejante a la distancia entre los objetos que
contienen. Por otro lado, un enlace cuya altura difiere
notablemente de la altura de los enlaces inferiores indica que
los objetos unidos a ese nivel están mucho más
separados entre sí de lo que estaban sus componentes
cuando se los unió. En el análisis, los
vínculos inconsistentes pueden indicar los bordes de una
división natural en el conjunto de datos, pues detectan
regiones donde la similaridad entre objetos o grupos cambia
abruptamente.

Monografias.com

El coeficiente de inconsistencia compara la altura de un
vínculo en un árbol jerárquico con el
promedio de las alturas de los vínculos que están
por debajo de él y permite cuantificar la inconsistencia
relativa. Los vínculos que unen distintos agrupamientos
tienen altos coeficientes de inconsistencia, a diferencia de
aquellos que unen grupos indistintos, que tienen un bajo valor
del coeficiente.

Ventajas y desventajas del método
HCA

Ventajas:

  • La medida de la distancia es el único factor
    que determina al agrupamiento.

  • No es un método iterativo, por lo que no se
    necesitan soluciones iniciales y no existen problemas de
    optimización que conduzcan a mínimos
    locales.

  • No presenta una sensibilidad apreciable en presencia
    de ruidos (objetos que posean cierta ambigüedad respecto
    al agrupamiento al cual pertenecen)13.

Desventajas:

  • Resulta ser un método gráfico,
    más que analítico. El número de
    agrupamientos óptimo (K) se obtiene por
    inspección del gráfico.

  • Requiere que se especifiquen los grupos del conjunto
    de entrenamiento del modelo.

  • La interpretación de los resultados de HCA es
    menos directa. Es necesario armar el dendrograma y
    recién ahí se podrá saber la
    clasificación asignada a cada objeto.

4.2. Análisis de Agrupamiento
K-Medias

Partes: 1, 2, 3, 4, 5, 6, 7

Página siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter