Diseño de Conjuntos moleculares balanceados para su aplicación en la teoría QSPR-QSAR (página 6)
167 | Propilmalonato de | 0.134 | 402 | 2-Etilhexanal | 0.161 | ||||||||
168 | Etil-2-bromoisobutirato | 0.152 | 403 | 2-Etil-1-hexanol | 0.167 | ||||||||
169 | Acetato de amilo | 0.163 | 404 | 2-Octin-1-ol | 0.194 | ||||||||
170 | Propionato de butilo | 0.170 | 405 | Heptilamina | 0.211 | ||||||||
171 | Acido 2-octenoico (no N) | 0.209 | 406 | Etil-5-bromovalerato | 0.218 | ||||||||
172 | Hexanoato de alilo | 0.213 | 407 | 3-Cloro-2-butanona | 0.269 |
173 | 1,10-Decanodiol | 0.224 | 408 | 7-Cloroheptanonitrilo | 0.287 | ||||||||
174 | Cianuro de heptilo | 0.283 | 409 | Dimetil suberato | 0.296 | ||||||||
175 | 5-Bromopentilacetato | 0.293 | 410 | 3-Nonin-1-ol | 0.340 | ||||||||
176 | cloruro de hexanoilo | 0.340 | 411 | Octilamina | 0.351 | ||||||||
177 | 3,7-Dimetil-3-octanol | 0.340 | 412 | terc-Amilisotiocianato | 0.353 | ||||||||
178 | Acido nonanoico (no N) | 0.351 | 413 | 4-Bromobutilacetato | 0.392 | ||||||||
179 | trans-2-Octen-1-ol | 0.365 | 414 | Dietilpimelato | 0.407 | ||||||||
180 | 2-Metil-5-octin-4-ol | 0.401 | 415 | Acido 3-bromohexanoico (no | 0.455 | ||||||||
181 | Cloruro de octanoilo | 0.415 | 416 | Octil aldehído | 0.483 | ||||||||
182 | Cloruro de heptanoilo | 0.459 | 417 | 8-Cloro-1-octanol | 0.488 | ||||||||
183 | 1-Bromopenteno | 0.484 | 418 | ?-Decanolactona | 0.493 | ||||||||
184 | Acido 2-bromo octanoico (no | 0.491 | 419 | Acido decanoico (no N) | 0.506 | ||||||||
185 | 2,4-Nonanodiona | 0.506 | 420 | 7-Bromoheptanonitrilo | 0.512 | ||||||||
186 | 3-Hexin-2-ol | 0.511 | 421 | 2,4-dibromo-2,4-dimetil-3-pentanona | 0.513 | ||||||||
187 | Dibutil succinato | 0.512 | 422 | Octanoato de metilo | 0.536 | ||||||||
188 | Butirato de butilo | 0.516 | 423 | 2-Decanona | 0.582 | ||||||||
189 | Dietil butilmalonato | 0.557 | 424 | Etil-6-bromohexanona | 0.594 | ||||||||
190 | 1-Octanol | 0.583 | 425 | 5-Metil-1-hexin-3-ol | 0.617 | ||||||||
191 | Acido trans-2-nonenoico (no | 0.600 | 426 | Di-n-butilsulfato | 0.621 | ||||||||
192 | 2-Nonanol | 0.618 | 427 | 2-Bromopropionitrilo | 0.626 | ||||||||
193 | Dietil cloromalonato | 0.635 | 428 | 3-Decanona | 0.627 | ||||||||
194 | 2-Nonino-1-ol | 0.649 | 429 | 1,1-Dicloroacetona | 0.641 | ||||||||
195 | 2-Nonanona | 0.660 | 430 | 1-Hexin-3-ol | 0.657 | ||||||||
196 | Dietil suberato | 0.702 | 231 | 2,3-Dibromopropionato de | 2.208 | ||||||||
197 | Heptanoato de alilo | 0.728 | 432 | Acido a-noninoico (no N) | 0.714 | ||||||||
198 | trans-2-Nonen-1-ol | 0.752 | 433 | 4-Metil-1-heptin-3-ol | 0.743 | ||||||||
199 | Etil-2-bromobutirato | 0.764 | 434 | 1,2-Decanodiol | 0.764 | ||||||||
200 | Adipato de dibutilo | 0.792 | 435 | cis-2-Nonen-1-ol | 0.770 | ||||||||
201 | Cloroacetonitrilo | 0.845 | 436 | Nonil aldehido | 0.808 | ||||||||
202 | 1-Nonanol | 0.855 | 437 | (±)-4-Decanol | 0.850 | ||||||||
203 | Acido undecanoico (no N) | 0.898 | 438 | Etil-2-bromohexanotato | 0.860 | ||||||||
204 | cis-7-Decen-1-al | 0.949 | 439 | 1-Bromohexanona | 0.937 | ||||||||
205 | 2-Decin-1-ol | 0.986 | 440 | Dicloroacetonitrilo | 0.973 | ||||||||
206 | Dimetil sebacato | 1.011 | 441 | 3,4-Dibromohexeno | 0.998 | ||||||||
207 | Metil-2-bromobutirato | 1.024 | 442 | 1-Heptanotiol | 1.020 | ||||||||
208 | Nonanoato de metilo | 1.042 | 443 | sulfuro de butilo | 1.040 | ||||||||
209 | 1,6-Dibromohexeno | 1.046 | 444 | 8-Bromo-1-octanol | 1.042 | ||||||||
210 | Acetato de octilo | 1.057 | 445 | Vinil-2-etilhexanoato | 1.046 | ||||||||
211 | 3-Decin-1-ol | 1.127 | 446 | Etil-2-bromopropionato | 1.057 | ||||||||
212 | 1,2-Dibromohexeno | 1.146 | 447 | 2-Decen-1-ol | 1.128 | ||||||||
213 | trans-4-Decen-1-al | 1.208 | 448 | 1,8-Octanoditiol | 1.191 | ||||||||
214 | Acido 8-bromo octanoico (no | 1.323 | 449 | Decil aldehido | 1.282 | ||||||||
215 | Dietil sebacato | 1.354 | 450 | 1-Decanol | 1.335 | ||||||||
216 | Undecanoato de metilo | 1.425 | 451 | Decanoato de metilo | 1.378 | ||||||||
217 | 3-Cloro-2,4-pentanodiona | 1.444 | 452 | Etil-2,3-dibromobutirato | 1.438 | ||||||||
218 | 2-Bromooctanoato de | 1.499 | 453 | 1-Bromoheptano | 1.487 | ||||||||
219 | trans-2-Undecen-1-ol | 1.611 | 454 | 2-Undecanona | 1.535 | ||||||||
220 | Cianuro de decilo | 1.650 | 455 | Etilisotiocianato | 1.627 | ||||||||
221 | Dibutil suberato | 1.656 | 456 | Dimetil brasilato | 1.654 | ||||||||
222 | Undecil aldehído | 1.690 | 457 | 2-Dodecanona | 1.670 | ||||||||
223 | Nonilamina | 1.701 | 458 | Propilisotiocianato | 1.693 | ||||||||
224 | Isotiocianato de butilo | 1.721 | 459 | Amilisotiocianato | 1.706 | ||||||||
225 | 1,4-Dibromo-2,3-butenodiona | 1.762 | 460 | Hexilisotiocianato | 1.750 | ||||||||
226 | Acetato de decilo | 1.879 | 461 | 1-Bromooctano | 1.870 | ||||||||
227 | Cianuro de undecilo | 1.903 | 462 | Tricloroacetonitrilo | 1.883 | ||||||||
228 | 1-Undecanol | 1.955 | 463 | 1,4-Dibromo-2-buteno | 1.925 | ||||||||
229 | Decilamina | 2.056 | 464 | 1,3-Dicloroacetona | 2.046 | ||||||||
230 | 2-Dodecen-1-ol | 2.092 | 465 | Isotiocianato de alilo | 2.061 | ||||||||
231 | 2,3-Dibromopropionato de | 2.208 | 466 | 2,5-Dibromo-3,4-hexanodiona | 2.168 | ||||||||
232 | Diisotiocianato de | 2.721 | 467 | Bromoacetonitrilo | 2.229 | ||||||||
233 | Cianuro de metilo | -2.277 | 468 | Undecilamina | 2.328 | ||||||||
234 | Acetona | -2.204 | 469 | 1-Bromo-3,3-dimetil-2-butanona | 2.377 | ||||||||
235 | (±)-1,2-Butanodiol | -2.048 | 470 | Dibromoacetonitrilo | 2.398 |
Abreviaturas: no neutralizado (no N),
neutralizado (N)
Referencias
1. UNAIDS/WHO, AIDS epidemic update: December
2004. World Health Organization: Geneva, Switzerland,
2004.
2. Palella, F. J., Jr., Delaney, K. M., Moorman, A. C.,
Loveless, M. O., Fuhrer, J., Satten, G. A., Aschman, D. J.,
Holmberg, S. D., Declining morbidity and mortality among patients
with advanced human immunodeficiency virus infection. HIV
Outpatient Study Investigators. N. Engl. J. Med.
1998, 338, 853.
3. Finzi, D., Blankson, J., Siliciano, J. D., Margolick,
J. B., Chadwick, K., Pierson, T., Smith, K., Lisziewicz, J.,
Lori, F., Flexner, C., Quinn, T. C., Chaisson, R. E., Rosenberg,
E., Walker, B., Gange, S., Gallant, J., Siliciano, R. F.,
Quantification of latent tissue reservoirs and total body viral
load in HIV-1 infection. Nat. Med. 1999, 5,
512.
4. Chun, T.-W., Davey, R. T., Engel, D., Lane, H. C.,
Fauci, A. S., Re-emergence of HIV after stopping therapy.
Nature (London) 1999, 401, 874.
5. Deeks, S. G., Smith, M., Holodniy, M., Kahn, J. O.,
HIV-1 protease inhibitors: a review for clinicians. JAMA
1997, 277, 145.
6. Martinez-Picado, J., De Pasquale, M.P., Kartsonis,
N., Hanna, G.J., Wong, J., Finzi, D., Rosenberg, E., Gunthard,
H.F., Sutton, L., Savara, A., Petropoulos, C.J., Hellmann, N.,
Walker, B.D., Richman, D.D., Siliciano, R., D'Aquila, R.,
Antiretroviral resistance during successful therapy of HIV type 1
infection. Proc Natl Acad Sci U S A 2000, 97,
(20), 10948.
7. Anderson, J., Akkina, R., Complete Knockdown of CCR5
by lentiviral vector-expressed siRNAs and protection of
transgenic macrophages against HIV-1 infection. Gene
Therapy 2007, 14, (14), 1287.
8. Dean, M., Carrington, M., Winkler, C., Huttley, G.
A., Smith, M. W., Allikmets, R., Goedert, J. J., Buchbinder, S.
P., Vittinghoff, E., Gomperts, E., Donfield, S., Vlahov, D.,
Kaslow, R., Saah, A., Rinaldo, C., Detels, R., O¢Brien, S.
J., Genetic Restriction of HIV-1 Infection and Progression to
AIDS by a Deletion Allele of the CKR5 Structural Gene.
Science 1996, 273, 1856.
9. Liu, R., Paxton, W. A., Choe, S., Ceradini, D.,
Martin, S. R., Horuk, R., MacDonald, M. E., Stuhlmann, H., Koup,
R. A., Landau, N. R., Homozygous Defect in HIV-1 Coreceptor
Accounts for Resistance of Some Multiply-Exposed Individuals to
HIV-1 Infection. Cell 1996, 86, 367.
10. Samson, M., Libert, F., Doranz, B. J., Rucker, J.,
Liesnard, C., Farber, C.-M., Saragosti, S., Lapouméroulie,
C., Cognaux, J., Forceille, C., Muyldermans, G., Verhofstede, C.,
Burtonboy, G., Georges, M., Imai, T., Rana, S., Yi, Y., Smyth, R.
J., Collman, R. G., Doms, R. W., Vassart, G., Parmentier, M.,
Resistance to HIV-1 infection in Caucasian individuals bearing
mutant alleles of the CCR-5 chemokine receptor gene.
Nature 1996, 382, 722.
11. Michael, N. L., Chang, G., Louie, L. G., Mascola, J.
R., Dondero,D., Birx, D. L., Sheppard, H. W., The role of viral
phenotype and CCR-5 gene defects in HIV-1 transmission and
disease progression. Nat. Med. 1997, 3,
338.
12. Imamura, S., Ichikawa, T., Nishikawa, Y., Kanzaki,
N., Takashima, K., Niwa, S., Iizawa, Y., Baba, M., Sugihara, Y.,
Discovery of a Piperidine-4-carboxamide CCR5 Antagonist (TAK-220)
with Highly Potent Anti-HIV-1 Activity. J. Med. Chem.
2006, 49, 2784.
13. Imamura, S., Ishihara, Y., Hattori, T., Kurasawa,
O., Matsushita, Y., Sugihara, Y., Kanzaki, N., Iizawa, Y., Baba,
M., Hashiguchi, S., CCR5 Antagonists as Anti-HIV-1 Agents. 1.
Synthesis and Biological Evaluation of
5-Oxopyrrolidine-3-carboxamide Derivatives. Chem. Pharm.
Bull. 2004, 52, (1), 63.
14. Imamura, S., Nishikawa, Y., Ichikawa, T., Hattori,
T., Matsushita, Y., Hashiguachi, S., Kanzaki, N., Iizawa, Y.,
Baba, M., Susihara, Y., CCR5 antagonists as anti-HIV-1 agents.
Part 3: Synthesis and biological evaluation of
piperidine-4-carboxamide derivatives. Bioorganic &
Medicinal Chemistry 2005, 13, 397.
15. Seto, M., Aramaki, Y., Imoto, H., Aikawa, K., Oda,
T., Kanzaki, N., Iizawa, Y., Baba, M., Shiraishi, M., Orally
Active CCR5 Antagonists as Anti-HIV-1 Agents 2: Synthesis and
Biological Activities of Anilide Derivatives Containing a
Pyridine N-Oxide Moiety. Chem. Pharm. Bull. 2004,
52, (7), 818.
16. Musha, D., Body water in man. I. Total body water in
normal subjects and edematous patients. Tohoku J. Exp.
Med. 1956, 63, 309.
17. Schuster, D., Laggner, C., Langer, T., Why drugs
fail – a study on side effects in new chemical entities.
Pharm. Des. 2005, 11, 3545.
18. Stegemann, S., Leveiller, F., Franchi, D., de Jong,
H., Lindén, H., When poor solubility becomes an issue:
from early stage to proof of concept. Eur J Pharm Sci.
2007, 31, 249.
19. Alsenz, J., Kansy, M., High throughput solubility
measurement in drug discovery and development. Adv. Drug
Deliv. Rev. 2007, 59, 546.
20. Bhattachar, S. N., Deschenes, L., Wesley,
Solubility: it's not just for physical chemists. J. A. Drug
Discov. Today 2006, 11, 1012.
21. Balakin, K. V., Savchuk, N. P., Tetko, I. V. , In
Silico approaches to prediction of aqueous and DMSO Solubility of
drug-like compounds: Trends, problems and solutions. Curr.
Med. Chem. 2006, 13, 226.
22. Delaney, J. S., Predicting aqueous solubility from
structure. Drug Discovery Today 2005, 10, (4),
289.
23. Duchowicz, P. R., Talevi, A., Bruno-Blanch, L. E.,
Castro, E. A., New QSPR study for the prediction of aqueous
solubility of drug-like compounds. Bioorganic & Medicinal
Chemistry 2008, 16, 7944.
24. Bradbury, S. P., Quantitative structure-activity
relationships and ecological risk assessment: an overview of
predictive aquatic toxicology research. Toxicology
Letters 1995, 79, 229.
25. Auer, C. M., Nabholz, J.V., Baetcke, K.P., Mode of
action and the assessment of chemical hazards in the presence of
limited data: use of structure activity relationships (SARs)
under TSCA. Environ. Health Perspect. 1990, 87,
(5), 183.
26. Verhaar, H. J. M., van Leeuwen, C.J., Hermens,
J.L.M., Classifying environmental pollutants. 1:
Structure-activity relationships for prediction of aquatic
toxicity. Chemosphere 1992, 25, 471.
27. Bradbury, S. P., Predicting modes of toxic action
from chemical structure: an overview. SAR and QSAR Environ,
Res. 1994, 2, 89.
Capítulo 4.
Resultados
1. Introducción
En este capítulo se reportan los resultados
más relevantes obtenidos a partir de la
implementación de los distintos métodos de
clasificación de objetos estudiados en el Capítulo
2, aplicados en el Trabajo de Tesina para el armado de conjuntos
moleculares balanceados. Además, se describe cada uno de
los algoritmos que fue necesario programar en Matlab para obtener
los resultados que a continuación se presentan.
A la hora de armar un conjunto molecular balanceado para
aplicaciones QSAR-QSPR, se busca que los errores cometidos por el
modelo en la etapa de calibración sean similares a los
encontrados durante la etapa de validación. Si esto se
cumple, el modelo funciona con un carácter más
general y predictivo sobre los datos, y se asigna igual
preferencia al ajuste de los datos en los conjuntos de
calibración y validación. De nada sirve, por
ejemplo, ajustar muy bien el conjunto de calibración si
luego las predicciones alcanzadas en el conjunto de
validación presentan errores grandes, o viceversa.
Sí resulta conveniente tratar de ajustar ambos conjuntos
por igual, con error comparable.
Después de realizar la aplicación de
alguno de los métodos de clasificación vistos,
quedan definidos los conjuntos de calibración y
validación. El error de cada conjunto está asociado
a la propiedad predicha para las moléculas pertenecientes
a dicho conjunto, resultante de la aplicación del modelo
QSAR-QSPR consistente en una regresión lineal univariable.
En este modelo, la variable dependiente es la propiedad
experimental ( ) y
la variable independiente es el descriptor molecular que
correlacione mejor con la propiedad:
(1)
donde a y b son los coeficientes de
regresión, es el descriptor molecular, y la propiedad predicha. El
error lo cuantificamos con el parámetro rrcm, la
raíz cuadrada del residuo cuadrático
medio:
(2)
(3)
Aquí, N es el número de
moléculas ajustadas y es el residuo para la molécula
i.
El problema que se presenta es el siguiente. Como se
aprecia de la Ecs. (2) y (3), el valor del parámetro
rrcm que mide el error en el conjunto depende de los
valores numéricos que adopta la propiedad experimental
modelada y de los valores que adopta el descriptor usado en la
Ec. (1). Por tanto, si queremos que los errores de
calibración y validación tengan magnitud
comparable, debemos considerar estos dos factores en el
diseño del conjunto balanceado. Obviamente, a la hora de
armar un modelo QSAR-QSPR no es lícito considerar la
propiedad experimental del conjunto de validación, pues
este conjunto se utiliza solamente para probar la habilidad
predictiva del modelo sin considerarlo durante la etapa de
entrenamiento.
Lo anteriormente expuesto conduce al motivo principal
por el cual decidimos usar dos conjuntos de calibración
(cal1 y cal2) y un conjunto de validación (val) durante
los análisis: usamos cal1 para calibrar el modelo
QSAR-QSPR, comparamos el error rrcm de cal1 y cal2 para
este modelo y así comprobar si se tienen conjuntos
balanceados, mientras que con el conjunto val solamente
verificamos el poder predictivo. De esta manera evitamos el
inconveniente anteriormente planteado. Además, el conjunto
cal2 sirve para pre-validar la relación cuantitativa
obtenida, y constituye una suerte de transición menos
abrupta entre los conjuntos de calibración y
validación.
En cada caso, el número de moléculas
incluidas en los conjuntos cal1 y cal2 representan el 70% del
número total de moléculas, mientras que el 30%
restante corresponde a moléculas de validación. Se
utiliza igual número de moléculas en cal1 y cal2.
Finalmente, cabe mencionar que el gran tamaño de los
conjuntos moleculares correspondientes a las tres propiedades
ensayadas en este trabajo, que poseen un número de
moléculas superior a 100, hace posible usar dos conjuntos
de calibración.
Una vez entendida la manera de obtener el error en los
conjuntos cal1, cal2, y val, procedemos a describir los
algoritmos basados en los distintos métodos de
clasificación estudiados. Estos algoritmos permiten
seleccionar los mejores descriptores para clasificar
moléculas en cada método, a partir del
análisis de 1497 descriptores provistos por Dragon para el
conjunto molecular ensayado. En todos los casos, para la medida
de distancia entre pares de moléculas se utiliza la
distancia Euclídea, aunque también podría
recurrirse a otras alternativas (ver Apéndice,
sección II).
2. Algoritmos y Criterio Matemático
Utilizados
2.1. Algoritmo clusterskmeans.m
Permite realizar las mejores agrupaciones de
moléculas a partir de N consideradas, a
través de la aplicación del método K-Medias
y la exploración de D=1497 descriptores
moleculares. Descarta los descriptores que conduzcan a valores
negativos del parámetro silueta medio. A partir de los
K grupos generados con cada descriptor clasificador
y al considerar que
los integrantes del grupo son equivalentes entre sí, se
extraen moléculas representativas de cada uno de ellos y
se arman los conjuntos cal1, cal2, y val que respeten las
proporciones señaladas anteriormente (70% en cal1 y cal2,
y 30% en val). Luego, se obtiene el parámetro
rrcm en cada conjunto según la Ec. (2); este
error se calcula con el descriptor molecular que correlacione mejor con
la propiedad en el modelo de la Ec. (1). En consecuencia, el
descriptor que se
utiliza para realizar la clasificación molecular no
necesariamente debe ser el mismo a utilizado en la ecuación QSAR-QSPR para
calcular rrcm.
Es posible involucrar un mayor número de
descriptores clasificadores en clusterskmeans.m (o en los
algoritmos explicados en las siguientes secciones), que conduce a
una clasificación más estricta de los datos, pero
por razones de falta de tiempo no incluimos dichos resultados. A
pesar de ello, los resultados presentados aquí no
varían demasiado para descriptores clasificadores
adicionales. Además, para simplificar el análisis
tampoco consideramos modelos QSAR-QSPR que involucren un mayor
número de descriptores en la Ec. (1).
El algoritmo se ejecuta con la sentencia
siguiente:
[Resultkmeans]=clusterskmeans(p, tot,
nclusters, percent); (4)
Aquí, "p" es la propiedad experimental objeto de
estudio, "tot" es la matriz NxD, "nclusters" es K, y
"percent" corresponde al porcentaje de moléculas de
calibración (70%). El resultado "Resultkmeans" es una
matriz; el formato que se utiliza para presentar los resultados
del algoritmo clusterskmeans.m es el mismo al usado para los
algoritmos explicados en las siguientes secciones.
Por ejemplo, para el conjunto de 166 solubilidades
acuosas y la creación de 3 grupos, se muestran las
primeras 29 filas de "Resultkmeans" en la Tabla 1.
Tabla 1. Resultado obtenido con clusterskmeans.m
en 166 solubilidades acuosas. nclusters=3, percent=70. M
es el número de moléculas de cada grupo.
M | |||||||||||||
808 | 557 | 1.182 | 1.244 | 1.643 | 0.062 | 4.98 | 87 | 65 | 14 | ||||
1377 | 557 | 1.185 | 1.269 | 1.620 | 0.085 | 6.67 | 30 | 1 | 135 | ||||
741 | 558 | 1.183 | 1.288 | 1.608 | 0.106 | 8.19 | 96 | 61 | 9 | ||||
895 | 1497 | 1.228 | 1.376 | 1.227 | 0.148 | 10.77 | 68 | 84 | 14 | ||||
646 | 1025 | 1.202 | 1.388 | 1.807 | 0.186 | 13.39 | 92 | 15 | 59 | ||||
1255 | 559 | 1.145 | 1.325 | 1.646 | 0.180 | 13.56 | 144 | 17 | 5 | ||||
766 | 1024 | 1.199 | 1.395 | 1.878 | 0.196 | 14.05 | 92 | 15 | 59 | ||||
1205 | 255 | 1.183 | 1.391 | 1.745 | 0.209 | 15.00 | 31 | 76 | 59 | ||||
887 | 1497 | 1.213 | 1.427 | 1.199 | 0.214 | 15.02 | 84 | 73 | 9 | ||||
951 | 1497 | 1.208 | 1.424 | 1.221 | 0.216 | 15.15 | 76 | 81 | 9 | ||||
245 | 1497 | 1.178 | 1.445 | 1.187 | 0.267 | 18.47 | 61 | 74 | 31 | ||||
130 | 1497 | 1.180 | 1.454 | 1.183 | 0.274 | 18.86 | 35 | 76 | 55 | ||||
861 | 1497 | 1.169 | 1.453 | 1.210 | 0.284 | 19.55 | 12 | 52 | 102 | ||||
440 | 1497 | 1.166 | 1.464 | 1.188 | 0.299 | 20.39 | 6 | 105 | 55 | ||||
439 | 1497 | 1.167 | 1.470 | 1.198 | 0.303 | 20.62 | 6 | 59 | 101 | ||||
904 | 1497 | 1.154 | 1.475 | 1.198 | 0.321 | 21.76 | 88 | 64 | 14 | ||||
1236 | 113 | 1.008 | 1.426 | 1.369 | 0.417 | 29.27 | 6 | 96 | 64 | ||||
1065 | 113 | 1.012 | 1.432 | 1.378 | 0.420 | 29.31 | 111 | 36 | 19 | ||||
55 | 113 | 1.021 | 1.445 | 1.335 | 0.424 | 29.32 | 64 | 16 | 86 | ||||
1144 | 113 | 1.017 | 1.445 | 1.367 | 0.428 | 29.60 | 105 | 21 | 40 | ||||
415 | 113 | 1.002 | 1.428 | 1.387 | 0.426 | 29.82 | 34 | 55 | 77 | ||||
262 | 113 | 1.006 | 1.434 | 1.356 | 0.429 | 29.89 | 139 | 7 | 20 | ||||
25 | 113 | 0.986 | 1.411 | 1.413 | 0.424 | 30.07 | 27 | 77 | 62 | ||||
826 | 113 | 1.007 | 1.445 | 1.360 | 0.438 | 30.30 | 76 | 76 | 14 | ||||
888 | 113 | 1.003 | 1.439 | 1.387 | 0.437 | 30.34 | 18 | 77 | 71 | ||||
431 | 113 | 1.011 | 1.451 | 1.341 | 0.441 | 30.38 | 56 | 105 | 5 | ||||
656 | 113 | 0.977 | 1.406 | 1.434 | 0.429 | 30.48 | 108 | 9 | 49 | ||||
639 | 1147 | 1.059 | 1.524 | 1.255 | 0.465 | 30.51 | 162 | 3 | 1 | ||||
580 | 113 | 1.009 | 1.456 | 1.357 | 0.447 | 30.68 | 73 | 73 | 20 |
En esta tabla se definen los parámetros y necesarios para el
análisis.
(5)
(6)
Además, representa el número de moléculas
presentes en el grupo
Los resultados de "Resultkmeans" se hallan ordenados
según creciente. Este parámetro mide la
diferencia porcentual en el error para los dos conjuntos de
calibración: si los dos conjuntos están
balanceados, este porcentaje debe ser bajo. Ahora, se aprecia que
se tienen varias soluciones posibles (filas) en la matriz de
resultados, consecuencia de explorar 1497 descriptores
moleculares. Por tanto, debe especificarse un criterio
matemático que permita rescatar una solución
satisfactoria (balanceada) entre los varios resultados
disponibles. La definición de este criterio será
igualmente aplicable a los algoritmos presentados en las
siguientes secciones, en vista que los resultados presentados por
los diferentes métodos poseen el mismo formato al indicado
en la Tabla 1.
2.2. Criterio Matemático
La especificación del criterio tiene su base en
el estudio del comportamiento numérico de los datos, por
lo que es aplicable en principio a cualquier conjunto molecular
ensayado (cualquier propiedad experimental, independiente de la
diversidad estructural molecular). La solución balanceada
se busca entre los varios resultados posibles con el siguiente
procedimiento:
a- se ordena la matriz de resultados según
creciente.
b- la solución principal (prin) es la primer
solución que tenga y sus parámetros son y
c- es posible encontrar una solución diferente
(secundaria, sec) a la solución principal si para lo cual se
define:
(7)
La solución secundaria es una situación de
compromiso entre los siguientes requisitos, en ese
orden:
i. con
y alto
ii. y
alto
iii. de la
solución secundaria debe ser bajo.
iv. bajo
En algunos casos, si se cumple apreciablemente iii) para
la solución secundaria y entonces igual se acepta este resultado como
solución.
Por ejemplo, si se aplica el criterio a los datos de la
Tabla 1, se encuentra que la solución principal se
caracteriza con:
y
Es posible encontrar una solución secundaria
(sombreada en gris) que cumple las condiciones i.-iv. y posee
(2.52%):
y
Este criterio matemático adoptado para el
análisis de las soluciones demuestra funcionar bastante
bien y de carácter general para el armado de conjuntos
moleculares balanceados, en las tres propiedades estudiadas en
este trabajo. Como se observa de las condiciones del criterio,
ninguna de ellas considera a parámetros derivados del
conjunto de validación, por lo que estas reglas resultan
válidas. El criterio tiene en cuenta que sea bajo entre los varios
resultados. Además, el hecho de considerar que se atribuye a que esta
elección evita soluciones en las que se ajusta
extremadamente bien ambos conjuntos de calibración y se
ajusta peor el conjunto de validación. Por ejemplo, este
es el caso para la primera fila:
y
En definitiva, el criterio establecido no sólo
permite rescatar una solución aceptable de la matriz de
resultados, sino que también permite arribar a particiones
moleculares en las que los modelos QSAR-QSPR resultantes de
dichas particiones resultan más predictivos en el conjunto
de validación.
2.3. Algoritmo clustersknn.m
La implementación del método K-Vecinos
Más Cercanos se efectúa a través del
desarrollo y posterior aplicación del algoritmo
clusterknn.m, que funciona de manera similar a clusterskmeans.m y
busca el descriptor clasificador entre los D disponibles
que consiga las mejores agrupaciones. Sin embargo, a diferencia
de K-Medias, la aplicación del método requiere
conocer de antemano un conjunto de entrenamiento. Si se utiliza
como conjunto de entrenamiento los centroides proporcionados por
el método K-Medias, entonces los grupos formados por K-NN
y K-Medias coinciden. Este resultado permitió definir el
conjunto de entrenamiento a utilizar en la técnica K-NN,
es decir, en vez de usar centroides de K-Medias se definieron
nuevos centroides. Por ejemplo, para el caso de un descriptor
clasificador, si se quieren formar dos grupos, los centros se
ubican en los valores máximo y mínimo del
descriptor. Si se busca generar tres grupos, entonces los centros
se posicionan en los valores máximo, medio y mínimo
del descriptor considerado. Para mayor cantidad de grupos, los
centros se ubican en iguales intervalos del descriptor. La
siguiente figura presenta la definición de los nuevos
centros.
Figura 1. Esquema de
selección de nuevos centroides de d1 en
clustersknn
El algoritmo se ejecuta con la sentencia
siguiente:
[Resultknn]=clustersknn(p, tot, nclusters,
percent); (8)
El criterio matemático adoptado para la
elección del resultado se mantiene. La descripción
de las variables de entrada del algoritmo es la misma que para
clusterskmeans.m.
2.4. Algoritmo clusterslda.m
La implementación del Análisis
Discriminante Lineal a través del algoritmo clusterlda.m
se lleva a cabo de la misma manera que para clusterknn.m. Al
igual que en K-NN, el conjunto de entrenamiento está
constituido por los nuevos centroides definidos en la Figura 1, y
establecen las clases con las cuales el método
discriminará a las moléculas.
El algoritmo se ejecuta con la sentencia
siguiente:
[Resultlda]=clusterslda(p, tot, nclusters,
percent); (9)
2.5. Algoritmo clusterspca.m
La aplicación del método PCA utiliza el
algoritmo clusterspca.m. En este caso, se establecen las
agrupaciones luego de analizar el signo de las coordenadas de los
componentes principales. Por tanto, si L es el
número de componentes principales, será el número de
agrupamientos obtenidos. A modo de ejemplo, si se utiliza
únicamente el primer componente principal se obtienen dos
grupos, uno correspondiente a moléculas con coordenadas
PC1>0 y otro correspondiente a moléculas con
PC1<0. La Figura 2 ilustra esta idea.
Figura 2. Especificación de
agrupaciones en clusterspca.m
Con objeto de calcular los componentes principales, se
requiere disminuir la dimensión de la matriz de
descriptores a tratar. En nuestro caso D=1497, y la
aplicación directa de la técnica PCA no es posible.
Por tanto, se considera solamente un conjunto de descriptores
clasificadores tal que el coeficiente de correlación entre
cada par de descriptores i y j ( ) sea menor al valor
límite 0.5. De esta manera, se evita utilizar descriptores
que se encuentren muy correlacionados, pues varían de la
misma forma y no contribuyen al proceso de
clasificación.
Una vez que se tiene una matriz reducida de descriptores
linealmente independientes, se buscan todas las combinaciones
posibles de 2 descriptores, cada una de las cuales permite
obtener al primer y segundo componente principal y, por tanto, a
2 y 4 grupos, respectivamente. Para obtener el tercer componente
principal, se requiere la combinación de 3 descriptores.
La búsqueda combinatorial exacta de 3 descriptores
requiere una mayor demanda computacional, y el problema resulta
más complejo aún si el número de
descriptores aumenta. Por tanto, una vez que se elige la mejor
solución de 2 descriptores clasificadores, se busca el
tercer descriptor que mejor se combine con los 2 descriptores
previamente elegidos.
El algoritmo se ejecuta con la sentencia
siguiente:
[Resultpca]=clusterspca(p,tot,rlim,nclusters,percent);
(10)
donde rlim es 0.5 en nuestro caso.
2.6. Método HCA
Al tratarse el Análisis de Agrupamiento
Jerárquico de un método gráfico, no se lo
utiliza en este trabajo por la dificultad que presenta a la hora
de programar su algoritmo para la exploración de
más de mil descriptores clasificadores. Sí puede
aplicarse, en cambio, al tratamiento de unos pocos descriptores
de unas pocas moléculas, lo cual no es ninguno de los
casos aquí tratados.
3. Resultados
A continuación se presentan en tablas los
principales resultados encontrados para cada propiedad ensayada,
luego de aplicar los algoritmos basados en las distintas
técnicas de clasificación. Cada uno de estos
resultados se basó en el criterio matemático
establecido previamente para seleccionar una solución
balanceada.
Por otro lado, también se calcularon algunas
soluciones en las que se aplican los métodos K-Medias,
K-NN y LDA con el mismo descriptor clasificador. Esto se hizo a
fines comparativos y de discusión de los resultados
hallados si se considera la misma variable
clasificadora.
El número de agrupamientos considerados en los
cálculos para los distintos métodos fue K
= 2, 3, 4, 10, 15, 20, 25, y 30, a excepción del
método PCA, que admite 2, 4, 8, y 16.
Tabla 2. Actividad
anti-VIH
Tabla 3. Solubilidades
acuosas
Tabla 4. Toxicidades
acuosas
4. Discusión
Se observa de las Tablas 2-4 que, para un número
de agrupamientos determinado, los errores obtenidos en cal1 con
los métodos de clasificación K-Medias, K-NN, LDA y
PCA tienden a ser parecidos en las tres propiedades ensayadas,
sin observar discrepancias apreciables. Lo mismo sucede para el
caso de las comparaciones en cal2 y val. A su vez, los conjuntos
de calibración y validación tienden a tener errores
que no se diferencian demasiado entre sí, por lo que los
conjuntos obtenidos para estos cuatro métodos tienden a
ser balanceados.
Ahora, cómo se explica que diferentes
métodos tiendan a generar soluciones parecidas, para un
número de agrupamiento determinado? Para responder a este
interrogante, debemos plantear lo que sucede con el
desempeño de estos métodos si utilizan el mismo
descriptor clasificador. Las Tablas 5-7 muestran discrepancias
mayores en el error de los conjuntos de calibración y
validación, dependiente del método que se use, por
lo que no se obtienen conjuntos balanceados en estas condiciones.
Esto sucede especialmente en los conjuntos moleculares de
solubilidades acuosas y actividades anti-VIH-1, que al parecer
son conjuntos más heterogéneos para el modelo
QSAR-QSPR.
La conclusión a la que se llega es que la
aplicación del criterio matemático para la
selección de la mejor solución entre varias
posibilidades, que surgen de explorar un gran número de
descriptores, permite unificar el funcionamiento de los
métodos clasificadores aquí estudiados. Esto surge
de las tres propiedades estudiadas en el trabajo actual y
podría extenderse al tratamiento de otras
propiedades.
Tabla 5. Actividad
anti-VIH
Tabla 6. Solubilidades
acuosas
Tabla 7. Toxicidades
acuosas
Capítulo 5.
Conclusiones
El objetivo principal del Trabajo de Tesina consiste en
establecer una correcta clasificación molecular que
permita seleccionar de manera racional conjuntos moleculares
balanceados para su posterior aplicación en la
Teoría QSAR-QSPR.
En función de los resultados obtenidos, se puede
concluir que:
A la hora de armar conjuntos moleculares
balanceados, resulta necesario buscar el mejor resultado de
clasificación de manera que tenga en cuenta tanto las
características estructurales de las moléculas
como a la propiedad experimental objeto de
estudio.
El criterio matemático establecido resulta
funcionar de manera general sobre los distintos datos, y
permite unificar los métodos estudiados. Esto es
valioso si para un determinado problema de
clasificación uno no sabe a cual método
recurrir.
Al tratarse HCA de un método gráfico,
no se lo utilizó en este trabajo por la dificultad que
presenta a la hora de programar su algoritmo para la
exploración de más de mil
descriptores.
Página anterior | Volver al principio del trabajo | Página siguiente |