Diseño de Conjuntos moleculares balanceados para su aplicación en la teoría QSPR-QSAR (página 2)

Partes: 1, 2, 3, 4, 5, 6, 7

El K-Medias trata cada observación como un objeto
que tiene una ubicación en el espacio. Luego de realizar
un proceso iterativo, identifica una partición tal que los
objetos dentro de cada agrupamiento estén ubicados lo
más cerca posible el uno al otro, y también lo
más lejos posible a otros grupos. Por supuesto, es posible
elegir la medida de la distancia y ello dependerá del tipo
de datos que se analicen. Cada agrupamiento de la
partición se caracteriza por sus objetos miembros y por su
centroide o centro. El centroide para cada agrupamiento es el
punto en el que la suma de las distancias de todos los objetos en
tal agrupamiento se hace mínima. El tipo de distancia
utilizada en forma predeterminada suele ser Euclídea, pero
al igual que en HCA es posible escoger distintas opciones. El
cálculo de los centroides proporciona diferente resultado
dependiente del tipo de medida de distancia empleado. La
ubicación final del centroide se determina a través
de un proceso iterativo, que generalmente converge a una
solución que es mínimo local en la primera etapa
del cálculo, pero en la segunda etapa en la mayoría
de los casos alcanza un mínimo global, para más
información ver Apéndice, sección
IV.

Para tener una idea de la calidad de las agrupaciones
generadas por K-Medias, se define el valor silueta para cada
objeto i (s(i)). El valor silueta
representa una medida de la similitud que tiene un objeto situado
en un grupo dado respecto a otros pertenecientes a grupos
vecinos. Su valor numérico cae en el intervalo [-1 1]. Un
valor silueta cercano a 1 indica la buena asignación del
objeto al agrupamiento, en tanto la disminución del
indicador empeora la calidad de la asignación. Si
s(i) es cercano a cero, resulta indistinto
asignar el punto i a un grupo o a otro grupo vecino. Si
s(i) es negativo, sugiere que el objeto se
asignó a un grupo erróneo. La definición del
parámetro silueta se presenta en el Apéndice,
sección V.

A partir de la comparación de la magnitud de los
valores silueta, es posible ajustar el valor de K a utilizarse en
la clasificación. El siguiente gráfico silueta
constituye un ejemplo.

Monografias.com

El gráfico representa el número de
agrupamientos producidos en función del paramétro
silueta. Se aprecia que muchos de los objetos en el tercer
agrupamiento tienen s(i)>0.6, por lo que
dicho grupo está bien resuelto de las agrupaciones
vecinas. No obstante, se puede observar que el primer grupo tiene
muchos objetos con valores menores de s(i), y
que el segundo grupo presenta inclusive unos pocos valores
negativos del parámetro, lo que manifiesta que estos dos
agrupamientos no están bien separados.

Ventajas y desventajas del método
K-Medias

Ventajas:

K-Medias puede producir agrupamientos más
estrictos que HCA, especialmente si los agrupamientos son de
tipo globular15.
K-Medias es un método más
analítico, si se compara con HCA.
La determinación de los centroides es
automática y no se requiere información
adicional sobre las clases presentes en el conjunto original
de datos.

Desventajas:

Fijar el número de agrupamientos puede hacer
dificultosa la selección del valor óptimo de la
variable K.
Alta sensibilidad a la posición inicial de
los centroides de las agrupaciones en el método
iterativo. Con el fin de obtener una solución
óptima, se deben realizar varias pruebas con distintas
posiciones iniciales de los centroides.
No funciona bien con agrupamientos
no-globulares.

4.3. Análisis K-Vecinos Más Cercanos
(K-NN)

El análisis de vecinos más cercanos
consiste en estimar el valor de un dato desconocido a partir de
las características del dato más próximo,
según una medida de similitud o distancia16. Este
análisis tiene propiedades estadísticas bien
establecidas y es fácil de aplicar a sistemas reales17. El
método de vecinos más cercanos se puede extender si
se utiliza no uno, sino un conjunto de datos más cercanos
para predecir el valor del nuevo dato, en lo que se conoce como
K-vecinos más cercanos.

El K-NN asume que todos los objetos pertenecen a un
conjunto de calibración predeterminado, y mediante una
medida de distancia elegida se determinan los K objetos
más cercanos al objeto que se desea clasificar. Se trata
de un algoritmo de aprendizaje inductivo supervisado, en el que
se genera una función que asigna las entradas a salidas
deseadas. Esto significa que el conjunto de calibración
incluye, además de las propiedades multidimensionales
utilizadas para el reconocimiento (variables atributo),
clasificadores para predecir la clase a la que pertenecen los
datos de entrada. Por ejemplo, un objeto es asignado a una
determinada clase si ésta es la clase más
frecuente entre los K objetos de entrenamiento más
cercanos.

Monografias.com

El método K-NN supone que los vecinos más
cercanos conducen a la mejor clasificación, esto se hace
al considerar todas las variables atributos. El problema de tal
suposición es que es posible que existan varios atributos
irrelevantes que dominen sobre la clasificación,
así los atributos relevantes pierden peso de
decisión y la clasificación es incorrecta. Para
resolver la cuestión, es posible asignar un peso a las
distancias de cada atributo, que transfiere mayor importancia a
los atributos más relevantes. Otra posibilidad es tratar
de asignar los pesos con objetos conocidos de
entrenamiento.

La mejor elección del valor de K depende
fundamentalmente de los datos; generalmente los valores altos de
K reducen el efecto de ruido en la clasificación, pero
crean límites entre clases parecidas. El valor más
adecuado de esta variable corresponde a aquel que provea la mejor
clasificación de los datos para la aplicación
concreta. La exactitud del algoritmo K-NN puede ser profundamente
degradada por la presencia de ruido o características
irrelevantes, por lo que todos los datos deben estar
apropiadamente estandarizados.

Ventajas y desventajas

Ventajas:

Simple uso. Como existe un conjunto de entrenamiento
con la clasificación de objetos preestablecida en el
mismo, la clasificación de nuevos objetos sólo
implica la medida de la distancia entre objetos y no requiere
de un cálculo iterativo.
Debido a que se cuenta con más
información inicial, la clasificación
debería ser más exacta, si las clases iniciales
impuestas son las correctas.

Desventajas:

Requiere información adicional, pues es
necesaria la asignación de un conjunto de
entrenamiento, para lo cual se debe conocer de antemano las
clases iniciales; esta información no siempre
está disponible.

Referencias

1. Mazzatorta, P., Benfenati, E., Lorenzini, P., Vighi,
M., QSAR in Ecotoxicity: An Overview of Modern Classification
Techniques. J. Chem. Inf. Comput. Sci. 2004, 44,
105.

2. Brown, R. D., Martin, Y. C., Use of
Structure-Activity Data To Compare Structure-Based Clustering
Methods and Descriptors for Use in Compound Selection. J.
Chem. Inf. Comput. Sci. 1996, 39, (3),
572.

3. Marengo, E. T., R, Linear Discriminant Hierarchical
Clustering: A modeling and Cross-Validate Divisive Clustering
Method. Chemom. Intell. Lab. Sys. 1993, 19,
43.

4. Niemi, G. J., Practical Applications of
Quantitative Structure-Activity Relationships (QSAR) in
Environmental Chemistry and Toxicology. Kluwer Academic
Publishing: Dordrecht, 1990.

5. Hubert, C. J., Applied Discriminant
Analysis. Wiley-Interscienc: New York, 1994.

6. L. Kaufman, R., P. J., Finding Groups in Data: An
Introduction to Cluster Analysis. Wiley-Interscience: New
York, 1990.

7. Hecht-Nielsen, R., Proceedings of the
International Joint Conference on Neural Networks.
Washington D. C., 1989; p 531.

8. Kohonen, T., Self-Organizing Maps.
Springer-Verlag: Berlin, 2001.

9. H.T. Nguyen, W., E. A., A First Course in Fuzzy
Logic. Third Edition (2006) ed.;
Chapman&Hall/CRC.

10. Zadeh, L. A., Classification and
Clustering. Academic Press: New York, 1977.

11. F. Ros, A., K., Pintore, M., Chrétien, J. R.,
Hybrid Systems for Virtual Screening: Interest of Fuzzy
Clustering Applied to Olfaction. SAR&QSAR Environ.
Res. 2000, 11, 281.

12. Ros, F., Taboureau, O., Pintore, M.,
Chrétien, J. R., Development of predictive models by
adaptive fuzzy partitioning. Application to compounds active on
the central nervous system. Chemom. Intel. Lab. Syst.
2003, 67, 29.

13. Iye, M., Hopfinger,A. J., Treating Chemical
Diversity in QSAR Analysis: Modeling Diverse HIV-1 Integrase
Inhibitors Using 4D Fingerprints. J. Chem. Inf. Model.
2007, 47, 1945.

14. Matlab 7.0, The MathWorks, Inc.
http://www.mathworks.com

15. Han, J., Kamber, M., Pei, J., In Data Mining:
Concepts and Techniques, 2006.

16. Cover, T., Hart, P., Nearest neighbor pattern
classification. In IEEE Transactions on Information
Theory, 1967; Vol. 13, p 21.

17. D. Aha, D. K., M. Albert, Instance-based learning
"Instance-based learning algorithms". In Machine
Learning, 1991; p 37.

Capítulo 3.

Conjuntos
Moleculares Ensayados

1. Agentes Anti-VIH-1 Basados en la Inhibición
del Receptor CCR5

A pesar del gran esfuerzo mundial para prevenir la
propagación del Virus de la Inmunodeficiencia Humana de
tipo 1 (VIH-1), el número de personas infectadas con VIH-1
sigue en ascenso1. El desarrollo de la terapia antirretroviral
combinada con los inhibidores de la Transcriptasa Reversa del
VIH-1 y los inhibidores de la Proteasa han proporcionado un
método clínicamente eficaz de supresión de
la carga viral en individuos infectados con VIH-1, lo cual se ha
traducido en una drástica reducción de la
morbilidad y la mortalidad causada por el virus2. A pesar de
ello, las terapias no son curativas3 y el VIH se replica
nuevamente cuando el tratamiento cesa4. Por otro lado, la
complejidad de los regímenes de dosificación y la
corriente toxicidad del tratamiento anti-VIH-1 hacen que sea
difícil mantener al paciente en conformidad5.
Además, la resistencia a los fármacos disponibles
en la actualidad se hace cada vez mayor6. Por tanto, es necesario
identificar nuevas clases de agentes con mayor eficiencia y menor
grado de toxicidad.

El reciente avance en el conocimiento de los receptores
de quimiocina que funcionan como co-receptores del VIH-1
proporciona una nueva estrategia para controlar la
infección con VIH-1. La CC quimiocina receptora
de tipo 5, conocida como CCR5, es
una proteína que en los humanos está
codificada por el gen CCR5. El VIH comúnmente
utiliza CCR5 como co-receptor para entrar en sus
células de destino. Varios receptores de quimiocinas
pueden funcionar como co-receptores virales, pero es probable que
CCR5 sea el co-receptor fisiológicamente más
importante durante la infección natural. En las personas
infectadas con VIH, CCR5 es la especie que predomina durante las
primeras etapas de la infección viral7. Ello sugiere
que estos co-receptores pueden tener una ventaja selectiva
durante la transmisión o la fase aguda de esta
enfermedad.

La remoción del par de base 32 en el gen CCR5
(CCR5?32) genera un receptor no funcional, y los individuos
CCR5?32 homocigotas son altamente resistentes a la
infección por VIH-1; este defecto no representa un
problema de salud significativo8-10. Por su parte, las personas
infectadas heterocigotas para el gen CCR5 defectuoso han
retrasado la progresión de la enfermedad11. Estas
observaciones sugieren que los antagonistas del CCR5, que
funcionan como inhibidores de la entrada del VIH-1,
podrían ser importantes agentes
terapéuticos.

En la Tabla 1 se presentan los 128 compuestos
orgánicos heterocíclicos12-15 antagonistas del CCR5
analizados, junto con sus actividades anti-VIH-1 experimentales.
La propiedad se reporta como Monografias.com y se relaciona con la concentración
requerida para alcanzar el 50% de inhibición de
CCR5.

2. Solubilidades Acuosas de Compuestos
Orgánicos Tipo-Droga

El agua es el constituyente principal de todo ser vivo:
sin ir más lejos, el cuerpo humano posee aproximadamente
el 60% de su masa en forma de agua16. El comportamiento de una
droga en agua gobierna ciertas cuestiones de captación,
movimiento y eliminación dentro del cuerpo (por ejemplo,
la absorción oral y el movimiento a través de la
sangre), que afectan indudablemente las etapas de desarrollo de
fármacos en la industria, así como las simples
cuestiones de "selección de alto rendimiento" de drogas en
las primeras etapas de su investigación. En el pasado, los
programas de desarrollo de drogas se basaban exclusivamente en su
actividad biológica y su potencial como fármaco,
sin tener en cuenta aspectos relacionados a la toxicidad y
fármacocinética, por tanto en las últimas
etapas el proceso fracasaba17.

Hoy día se sabe que diversas propiedades
fisicoquímicas están directamente relacionadas con
la biodisponibilidad del fármaco. Por muchas razones, la
solubilidad acuosa, junto con la acidez, la lipoficidad y la
estabilidad, se destaca entre las propiedades
fisicoquímicas claves en la búsqueda de compuestos
con posible actividad farmacológica, entre las cuales se
citan:

Tabla. 1. Estructuras moleculares y Monografias.com experimentales para
antagonistas de CCR5.

Monografias.com

Partes: 1, 2, 3, 4, 5, 6, 7

Página anterior

Volver al principio del trabajo

Página siguiente

Diseño de Conjuntos moleculares balanceados para su aplicación en la teoría QSPR-QSAR (página 2)

Conjuntos Moleculares Ensayados

Conjuntos
Moleculares Ensayados