Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Diseño de Conjuntos moleculares balanceados para su aplicación en la teoría QSPR-QSAR (página 6)



Partes: 1, 2, 3, 4, 5, 6, 7

167

Propilmalonato de
dietilo

0.134

402

2-Etilhexanal

0.161

168

Etil-2-bromoisobutirato

0.152

403

2-Etil-1-hexanol

0.167

169

Acetato de amilo

0.163

404

2-Octin-1-ol

0.194

170

Propionato de butilo

0.170

405

Heptilamina

0.211

171

Acido 2-octenoico (no N)

0.209

406

Etil-5-bromovalerato

0.218

172

Hexanoato de alilo

0.213

407

3-Cloro-2-butanona

0.269

173

1,10-Decanodiol

0.224

408

7-Cloroheptanonitrilo

0.287

174

Cianuro de heptilo

0.283

409

Dimetil suberato

0.296

175

5-Bromopentilacetato

0.293

410

3-Nonin-1-ol

0.340

176

cloruro de hexanoilo

0.340

411

Octilamina

0.351

177

3,7-Dimetil-3-octanol

0.340

412

terc-Amilisotiocianato

0.353

178

Acido nonanoico (no N)

0.351

413

4-Bromobutilacetato

0.392

179

trans-2-Octen-1-ol

0.365

414

Dietilpimelato

0.407

180

2-Metil-5-octin-4-ol

0.401

415

Acido 3-bromohexanoico (no
N)

0.455

181

Cloruro de octanoilo

0.415

416

Octil aldehído

0.483

182

Cloruro de heptanoilo

0.459

417

8-Cloro-1-octanol

0.488

183

1-Bromopenteno

0.484

418

?-Decanolactona

0.493

184

Acido 2-bromo octanoico (no
N)

0.491

419

Acido decanoico (no N)

0.506

185

2,4-Nonanodiona

0.506

420

7-Bromoheptanonitrilo

0.512

186

3-Hexin-2-ol

0.511

421

2,4-dibromo-2,4-dimetil-3-pentanona

0.513

187

Dibutil succinato

0.512

422

Octanoato de metilo

0.536

188

Butirato de butilo

0.516

423

2-Decanona

0.582

189

Dietil butilmalonato

0.557

424

Etil-6-bromohexanona

0.594

190

1-Octanol

0.583

425

5-Metil-1-hexin-3-ol

0.617

191

Acido trans-2-nonenoico (no
N)

0.600

426

Di-n-butilsulfato

0.621

192

2-Nonanol

0.618

427

2-Bromopropionitrilo

0.626

193

Dietil cloromalonato

0.635

428

3-Decanona

0.627

194

2-Nonino-1-ol

0.649

429

1,1-Dicloroacetona

0.641

195

2-Nonanona

0.660

430

1-Hexin-3-ol

0.657

196

Dietil suberato

0.702

231

2,3-Dibromopropionato de
etilo

2.208

197

Heptanoato de alilo

0.728

432

Acido a-noninoico (no N)

0.714

198

trans-2-Nonen-1-ol

0.752

433

4-Metil-1-heptin-3-ol

0.743

199

Etil-2-bromobutirato

0.764

434

1,2-Decanodiol

0.764

200

Adipato de dibutilo

0.792

435

cis-2-Nonen-1-ol

0.770

201

Cloroacetonitrilo

0.845

436

Nonil aldehido

0.808

202

1-Nonanol

0.855

437

(±)-4-Decanol

0.850

203

Acido undecanoico (no N)

0.898

438

Etil-2-bromohexanotato

0.860

204

cis-7-Decen-1-al

0.949

439

1-Bromohexanona

0.937

205

2-Decin-1-ol

0.986

440

Dicloroacetonitrilo

0.973

206

Dimetil sebacato

1.011

441

3,4-Dibromohexeno

0.998

207

Metil-2-bromobutirato

1.024

442

1-Heptanotiol

1.020

208

Nonanoato de metilo

1.042

443

sulfuro de butilo

1.040

209

1,6-Dibromohexeno

1.046

444

8-Bromo-1-octanol

1.042

210

Acetato de octilo

1.057

445

Vinil-2-etilhexanoato

1.046

211

3-Decin-1-ol

1.127

446

Etil-2-bromopropionato

1.057

212

1,2-Dibromohexeno

1.146

447

2-Decen-1-ol

1.128

213

trans-4-Decen-1-al

1.208

448

1,8-Octanoditiol

1.191

214

Acido 8-bromo octanoico (no
N)

1.323

449

Decil aldehido

1.282

215

Dietil sebacato

1.354

450

1-Decanol

1.335

216

Undecanoato de metilo

1.425

451

Decanoato de metilo

1.378

217

3-Cloro-2,4-pentanodiona

1.444

452

Etil-2,3-dibromobutirato

1.438

218

2-Bromooctanoato de
etilo

1.499

453

1-Bromoheptano

1.487

219

trans-2-Undecen-1-ol

1.611

454

2-Undecanona

1.535

220

Cianuro de decilo

1.650

455

Etilisotiocianato

1.627

221

Dibutil suberato

1.656

456

Dimetil brasilato

1.654

222

Undecil aldehído

1.690

457

2-Dodecanona

1.670

223

Nonilamina

1.701

458

Propilisotiocianato

1.693

224

Isotiocianato de butilo

1.721

459

Amilisotiocianato

1.706

225

1,4-Dibromo-2,3-butenodiona

1.762

460

Hexilisotiocianato

1.750

226

Acetato de decilo

1.879

461

1-Bromooctano

1.870

227

Cianuro de undecilo

1.903

462

Tricloroacetonitrilo

1.883

228

1-Undecanol

1.955

463

1,4-Dibromo-2-buteno

1.925

229

Decilamina

2.056

464

1,3-Dicloroacetona

2.046

230

2-Dodecen-1-ol

2.092

465

Isotiocianato de alilo

2.061

231

2,3-Dibromopropionato de
etilo

2.208

466

2,5-Dibromo-3,4-hexanodiona

2.168

232

Diisotiocianato de
1,3-propileno

2.721

467

Bromoacetonitrilo

2.229

233

Cianuro de metilo

-2.277

468

Undecilamina

2.328

234

Acetona

-2.204

469

1-Bromo-3,3-dimetil-2-butanona

2.377

235

(±)-1,2-Butanodiol

-2.048

470

Dibromoacetonitrilo

2.398

Abreviaturas: no neutralizado (no N),
neutralizado (N)

Referencias

1. UNAIDS/WHO, AIDS epidemic update: December
2004
. World Health Organization: Geneva, Switzerland,
2004.

2. Palella, F. J., Jr., Delaney, K. M., Moorman, A. C.,
Loveless, M. O., Fuhrer, J., Satten, G. A., Aschman, D. J.,
Holmberg, S. D., Declining morbidity and mortality among patients
with advanced human immunodeficiency virus infection. HIV
Outpatient Study Investigators. N. Engl. J. Med.
1998, 338, 853.

3. Finzi, D., Blankson, J., Siliciano, J. D., Margolick,
J. B., Chadwick, K., Pierson, T., Smith, K., Lisziewicz, J.,
Lori, F., Flexner, C., Quinn, T. C., Chaisson, R. E., Rosenberg,
E., Walker, B., Gange, S., Gallant, J., Siliciano, R. F.,
Quantification of latent tissue reservoirs and total body viral
load in HIV-1 infection. Nat. Med. 1999, 5,
512.

4. Chun, T.-W., Davey, R. T., Engel, D., Lane, H. C.,
Fauci, A. S., Re-emergence of HIV after stopping therapy.
Nature (London) 1999, 401, 874.

5. Deeks, S. G., Smith, M., Holodniy, M., Kahn, J. O.,
HIV-1 protease inhibitors: a review for clinicians. JAMA
1997, 277, 145.

6. Martinez-Picado, J., De Pasquale, M.P., Kartsonis,
N., Hanna, G.J., Wong, J., Finzi, D., Rosenberg, E., Gunthard,
H.F., Sutton, L., Savara, A., Petropoulos, C.J., Hellmann, N.,
Walker, B.D., Richman, D.D., Siliciano, R., D'Aquila, R.,
Antiretroviral resistance during successful therapy of HIV type 1
infection. Proc Natl Acad Sci U S A 2000, 97,
(20), 10948.

7. Anderson, J., Akkina, R., Complete Knockdown of CCR5
by lentiviral vector-expressed siRNAs and protection of
transgenic macrophages against HIV-1 infection. Gene
Therapy
2007, 14, (14), 1287.

8. Dean, M., Carrington, M., Winkler, C., Huttley, G.
A., Smith, M. W., Allikmets, R., Goedert, J. J., Buchbinder, S.
P., Vittinghoff, E., Gomperts, E., Donfield, S., Vlahov, D.,
Kaslow, R., Saah, A., Rinaldo, C., Detels, R., O¢Brien, S.
J., Genetic Restriction of HIV-1 Infection and Progression to
AIDS by a Deletion Allele of the CKR5 Structural Gene.
Science 1996, 273, 1856.

9. Liu, R., Paxton, W. A., Choe, S., Ceradini, D.,
Martin, S. R., Horuk, R., MacDonald, M. E., Stuhlmann, H., Koup,
R. A., Landau, N. R., Homozygous Defect in HIV-1 Coreceptor
Accounts for Resistance of Some Multiply-Exposed Individuals to
HIV-1 Infection. Cell 1996, 86, 367.

10. Samson, M., Libert, F., Doranz, B. J., Rucker, J.,
Liesnard, C., Farber, C.-M., Saragosti, S., Lapouméroulie,
C., Cognaux, J., Forceille, C., Muyldermans, G., Verhofstede, C.,
Burtonboy, G., Georges, M., Imai, T., Rana, S., Yi, Y., Smyth, R.
J., Collman, R. G., Doms, R. W., Vassart, G., Parmentier, M.,
Resistance to HIV-1 infection in Caucasian individuals bearing
mutant alleles of the CCR-5 chemokine receptor gene.
Nature 1996, 382, 722.

11. Michael, N. L., Chang, G., Louie, L. G., Mascola, J.
R., Dondero,D., Birx, D. L., Sheppard, H. W., The role of viral
phenotype and CCR-5 gene defects in HIV-1 transmission and
disease progression. Nat. Med. 1997, 3,
338.

12. Imamura, S., Ichikawa, T., Nishikawa, Y., Kanzaki,
N., Takashima, K., Niwa, S., Iizawa, Y., Baba, M., Sugihara, Y.,
Discovery of a Piperidine-4-carboxamide CCR5 Antagonist (TAK-220)
with Highly Potent Anti-HIV-1 Activity. J. Med. Chem.
2006, 49, 2784.

13. Imamura, S., Ishihara, Y., Hattori, T., Kurasawa,
O., Matsushita, Y., Sugihara, Y., Kanzaki, N., Iizawa, Y., Baba,
M., Hashiguchi, S., CCR5 Antagonists as Anti-HIV-1 Agents. 1.
Synthesis and Biological Evaluation of
5-Oxopyrrolidine-3-carboxamide Derivatives. Chem. Pharm.
Bull.
2004, 52, (1), 63.

14. Imamura, S., Nishikawa, Y., Ichikawa, T., Hattori,
T., Matsushita, Y., Hashiguachi, S., Kanzaki, N., Iizawa, Y.,
Baba, M., Susihara, Y., CCR5 antagonists as anti-HIV-1 agents.
Part 3: Synthesis and biological evaluation of
piperidine-4-carboxamide derivatives. Bioorganic &
Medicinal Chemistry
2005, 13, 397.

15. Seto, M., Aramaki, Y., Imoto, H., Aikawa, K., Oda,
T., Kanzaki, N., Iizawa, Y., Baba, M., Shiraishi, M., Orally
Active CCR5 Antagonists as Anti-HIV-1 Agents 2: Synthesis and
Biological Activities of Anilide Derivatives Containing a
Pyridine N-Oxide Moiety. Chem. Pharm. Bull. 2004,
52, (7), 818.

16. Musha, D., Body water in man. I. Total body water in
normal subjects and edematous patients. Tohoku J. Exp.
Med.
1956, 63, 309.

17. Schuster, D., Laggner, C., Langer, T., Why drugs
fail – a study on side effects in new chemical entities.
Pharm. Des. 2005, 11, 3545.

18. Stegemann, S., Leveiller, F., Franchi, D., de Jong,
H., Lindén, H., When poor solubility becomes an issue:
from early stage to proof of concept. Eur J Pharm Sci.
2007, 31, 249.

19. Alsenz, J., Kansy, M., High throughput solubility
measurement in drug discovery and development. Adv. Drug
Deliv. Rev.
2007, 59, 546.

20. Bhattachar, S. N., Deschenes, L., Wesley,
Solubility: it's not just for physical chemists. J. A. Drug
Discov. Today
2006, 11, 1012.

21. Balakin, K. V., Savchuk, N. P., Tetko, I. V. , In
Silico approaches to prediction of aqueous and DMSO Solubility of
drug-like compounds: Trends, problems and solutions. Curr.
Med. Chem.
2006, 13, 226.

22. Delaney, J. S., Predicting aqueous solubility from
structure. Drug Discovery Today 2005, 10, (4),
289.

23. Duchowicz, P. R., Talevi, A., Bruno-Blanch, L. E.,
Castro, E. A., New QSPR study for the prediction of aqueous
solubility of drug-like compounds. Bioorganic & Medicinal
Chemistry
2008, 16, 7944.

24. Bradbury, S. P., Quantitative structure-activity
relationships and ecological risk assessment: an overview of
predictive aquatic toxicology research. Toxicology
Letters
1995, 79, 229.

25. Auer, C. M., Nabholz, J.V., Baetcke, K.P., Mode of
action and the assessment of chemical hazards in the presence of
limited data: use of structure activity relationships (SARs)
under TSCA. Environ. Health Perspect. 1990, 87,
(5), 183.

26. Verhaar, H. J. M., van Leeuwen, C.J., Hermens,
J.L.M., Classifying environmental pollutants. 1:
Structure-activity relationships for prediction of aquatic
toxicity. Chemosphere 1992, 25, 471.

27. Bradbury, S. P., Predicting modes of toxic action
from chemical structure: an overview. SAR and QSAR Environ,
Res.
1994, 2, 89.

Capítulo 4.

Resultados

1. Introducción

En este capítulo se reportan los resultados
más relevantes obtenidos a partir de la
implementación de los distintos métodos de
clasificación de objetos estudiados en el Capítulo
2, aplicados en el Trabajo de Tesina para el armado de conjuntos
moleculares balanceados. Además, se describe cada uno de
los algoritmos que fue necesario programar en Matlab para obtener
los resultados que a continuación se presentan.

A la hora de armar un conjunto molecular balanceado para
aplicaciones QSAR-QSPR, se busca que los errores cometidos por el
modelo en la etapa de calibración sean similares a los
encontrados durante la etapa de validación. Si esto se
cumple, el modelo funciona con un carácter más
general y predictivo sobre los datos, y se asigna igual
preferencia al ajuste de los datos en los conjuntos de
calibración y validación. De nada sirve, por
ejemplo, ajustar muy bien el conjunto de calibración si
luego las predicciones alcanzadas en el conjunto de
validación presentan errores grandes, o viceversa.
Sí resulta conveniente tratar de ajustar ambos conjuntos
por igual, con error comparable.

Después de realizar la aplicación de
alguno de los métodos de clasificación vistos,
quedan definidos los conjuntos de calibración y
validación. El error de cada conjunto está asociado
a la propiedad predicha para las moléculas pertenecientes
a dicho conjunto, resultante de la aplicación del modelo
QSAR-QSPR consistente en una regresión lineal univariable.
En este modelo, la variable dependiente es la propiedad
experimental ( Monografias.com) y
la variable independiente es el descriptor molecular que
correlacione mejor con la propiedad:

Monografias.com
(1)

donde a y b son los coeficientes de
regresión, Monografias.comes el descriptor molecular, y Monografias.comla propiedad predicha. El
error lo cuantificamos con el parámetro rrcm, la
raíz cuadrada del residuo cuadrático
medio:

Monografias.com
(2)

Monografias.com
(3)

Aquí, N es el número de
moléculas ajustadas y Monografias.comes el residuo para la molécula
i.

El problema que se presenta es el siguiente. Como se
aprecia de la Ecs. (2) y (3), el valor del parámetro
rrcm que mide el error en el conjunto depende de los
valores numéricos que adopta la propiedad experimental
modelada y de los valores que adopta el descriptor usado en la
Ec. (1). Por tanto, si queremos que los errores de
calibración y validación tengan magnitud
comparable, debemos considerar estos dos factores en el
diseño del conjunto balanceado. Obviamente, a la hora de
armar un modelo QSAR-QSPR no es lícito considerar la
propiedad experimental del conjunto de validación, pues
este conjunto se utiliza solamente para probar la habilidad
predictiva del modelo sin considerarlo durante la etapa de
entrenamiento.

Lo anteriormente expuesto conduce al motivo principal
por el cual decidimos usar dos conjuntos de calibración
(cal1 y cal2) y un conjunto de validación (val) durante
los análisis: usamos cal1 para calibrar el modelo
QSAR-QSPR, comparamos el error rrcm de cal1 y cal2 para
este modelo y así comprobar si se tienen conjuntos
balanceados, mientras que con el conjunto val solamente
verificamos el poder predictivo. De esta manera evitamos el
inconveniente anteriormente planteado. Además, el conjunto
cal2 sirve para pre-validar la relación cuantitativa
obtenida, y constituye una suerte de transición menos
abrupta entre los conjuntos de calibración y
validación.

En cada caso, el número de moléculas
incluidas en los conjuntos cal1 y cal2 representan el 70% del
número total de moléculas, mientras que el 30%
restante corresponde a moléculas de validación. Se
utiliza igual número de moléculas en cal1 y cal2.
Finalmente, cabe mencionar que el gran tamaño de los
conjuntos moleculares correspondientes a las tres propiedades
ensayadas en este trabajo, que poseen un número de
moléculas superior a 100, hace posible usar dos conjuntos
de calibración.

Una vez entendida la manera de obtener el error en los
conjuntos cal1, cal2, y val, procedemos a describir los
algoritmos basados en los distintos métodos de
clasificación estudiados. Estos algoritmos permiten
seleccionar los mejores descriptores para clasificar
moléculas en cada método, a partir del
análisis de 1497 descriptores provistos por Dragon para el
conjunto molecular ensayado. En todos los casos, para la medida
de distancia entre pares de moléculas se utiliza la
distancia Euclídea, aunque también podría
recurrirse a otras alternativas (ver Apéndice,
sección II).

2. Algoritmos y Criterio Matemático
Utilizados

2.1. Algoritmo clusterskmeans.m

Permite realizar las mejores agrupaciones de
moléculas a partir de N consideradas, a
través de la aplicación del método K-Medias
y la exploración de D=1497 descriptores
moleculares. Descarta los descriptores que conduzcan a valores
negativos del parámetro silueta medio. A partir de los
K grupos generados con cada descriptor clasificador
Monografias.comy al considerar que
los integrantes del grupo son equivalentes entre sí, se
extraen moléculas representativas de cada uno de ellos y
se arman los conjuntos cal1, cal2, y val que respeten las
proporciones señaladas anteriormente (70% en cal1 y cal2,
y 30% en val). Luego, se obtiene el parámetro
rrcm en cada conjunto según la Ec. (2); este
error se calcula con el descriptor molecular Monografias.comque correlacione mejor con
la propiedad en el modelo de la Ec. (1). En consecuencia, el
descriptor Monografias.comque se
utiliza para realizar la clasificación molecular no
necesariamente debe ser el mismo a Monografias.comutilizado en la ecuación QSAR-QSPR para
calcular rrcm.

Es posible involucrar un mayor número de
descriptores clasificadores en clusterskmeans.m (o en los
algoritmos explicados en las siguientes secciones), que conduce a
una clasificación más estricta de los datos, pero
por razones de falta de tiempo no incluimos dichos resultados. A
pesar de ello, los resultados presentados aquí no
varían demasiado para descriptores clasificadores
adicionales. Además, para simplificar el análisis
tampoco consideramos modelos QSAR-QSPR que involucren un mayor
número de descriptores en la Ec. (1).

El algoritmo se ejecuta con la sentencia
siguiente:

[Resultkmeans]=clusterskmeans(p, tot,
nclusters, percent); (4)

Aquí, "p" es la propiedad experimental objeto de
estudio, "tot" es la matriz NxD, "nclusters" es K, y
"percent" corresponde al porcentaje de moléculas de
calibración (70%). El resultado "Resultkmeans" es una
matriz; el formato que se utiliza para presentar los resultados
del algoritmo clusterskmeans.m es el mismo al usado para los
algoritmos explicados en las siguientes secciones.

Por ejemplo, para el conjunto de 166 solubilidades
acuosas y la creación de 3 grupos, se muestran las
primeras 29 filas de "Resultkmeans" en la Tabla 1.

Tabla 1. Resultado obtenido con clusterskmeans.m
en 166 solubilidades acuosas. nclusters=3, percent=70. M
es el número de moléculas de cada grupo.

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

M

808

557

1.182

1.244

1.643

0.062

4.98

87

65

14

1377

557

1.185

1.269

1.620

0.085

6.67

30

1

135

741

558

1.183

1.288

1.608

0.106

8.19

96

61

9

895

1497

1.228

1.376

1.227

0.148

10.77

68

84

14

646

1025

1.202

1.388

1.807

0.186

13.39

92

15

59

1255

559

1.145

1.325

1.646

0.180

13.56

144

17

5

766

1024

1.199

1.395

1.878

0.196

14.05

92

15

59

1205

255

1.183

1.391

1.745

0.209

15.00

31

76

59

887

1497

1.213

1.427

1.199

0.214

15.02

84

73

9

951

1497

1.208

1.424

1.221

0.216

15.15

76

81

9

245

1497

1.178

1.445

1.187

0.267

18.47

61

74

31

130

1497

1.180

1.454

1.183

0.274

18.86

35

76

55

861

1497

1.169

1.453

1.210

0.284

19.55

12

52

102

440

1497

1.166

1.464

1.188

0.299

20.39

6

105

55

439

1497

1.167

1.470

1.198

0.303

20.62

6

59

101

904

1497

1.154

1.475

1.198

0.321

21.76

88

64

14

1236

113

1.008

1.426

1.369

0.417

29.27

6

96

64

1065

113

1.012

1.432

1.378

0.420

29.31

111

36

19

55

113

1.021

1.445

1.335

0.424

29.32

64

16

86

1144

113

1.017

1.445

1.367

0.428

29.60

105

21

40

415

113

1.002

1.428

1.387

0.426

29.82

34

55

77

262

113

1.006

1.434

1.356

0.429

29.89

139

7

20

25

113

0.986

1.411

1.413

0.424

30.07

27

77

62

826

113

1.007

1.445

1.360

0.438

30.30

76

76

14

888

113

1.003

1.439

1.387

0.437

30.34

18

77

71

431

113

1.011

1.451

1.341

0.441

30.38

56

105

5

656

113

0.977

1.406

1.434

0.429

30.48

108

9

49

639

1147

1.059

1.524

1.255

0.465

30.51

162

3

1

580

113

1.009

1.456

1.357

0.447

30.68

73

73

20

En esta tabla se definen los parámetros Monografias.comy Monografias.comnecesarios para el
análisis.

Monografias.com
(5)

Monografias.com
(6)

Además, Monografias.comrepresenta el número de moléculas
presentes en el grupo Monografias.com

Los resultados de "Resultkmeans" se hallan ordenados
según Monografias.comcreciente. Este parámetro mide la
diferencia porcentual en el error para los dos conjuntos de
calibración: si los dos conjuntos están
balanceados, este porcentaje debe ser bajo. Ahora, se aprecia que
se tienen varias soluciones posibles (filas) en la matriz de
resultados, consecuencia de explorar 1497 descriptores
moleculares. Por tanto, debe especificarse un criterio
matemático que permita rescatar una solución
satisfactoria (balanceada) entre los varios resultados
disponibles. La definición de este criterio será
igualmente aplicable a los algoritmos presentados en las
siguientes secciones, en vista que los resultados presentados por
los diferentes métodos poseen el mismo formato al indicado
en la Tabla 1.

2.2. Criterio Matemático

La especificación del criterio tiene su base en
el estudio del comportamiento numérico de los datos, por
lo que es aplicable en principio a cualquier conjunto molecular
ensayado (cualquier propiedad experimental, independiente de la
diversidad estructural molecular). La solución balanceada
se busca entre los varios resultados posibles con el siguiente
procedimiento:

a- se ordena la matriz de resultados según
Monografias.comcreciente.

b- la solución principal (prin) es la primer
solución que tenga Monografias.comy sus parámetros son Monografias.comMonografias.comy Monografias.com

c- es posible encontrar una solución diferente
(secundaria, sec) a la solución principal si Monografias.compara lo cual se
define:

Monografias.com
(7)

La solución secundaria es una situación de
compromiso entre los siguientes requisitos, en ese
orden:

i. Monografias.comcon
Monografias.comy alto

ii. Monografias.comy
alto

iii. Monografias.comde la
solución secundaria debe ser bajo.

iv. bajo Monografias.com

En algunos casos, si se cumple apreciablemente iii) para
la solución secundaria y Monografias.comentonces igual se acepta este resultado como
solución.

Por ejemplo, si se aplica el criterio a los datos de la
Tabla 1, se encuentra que la solución principal se
caracteriza con:

Monografias.comMonografias.comMonografias.comMonografias.comMonografias.comy Monografias.com

Es posible encontrar una solución secundaria
(sombreada en gris) que cumple las condiciones i.-iv. y posee
Monografias.com(2.52%):

Monografias.comMonografias.comMonografias.comMonografias.comMonografias.comy Monografias.com

Este criterio matemático adoptado para el
análisis de las soluciones demuestra funcionar bastante
bien y de carácter general para el armado de conjuntos
moleculares balanceados, en las tres propiedades estudiadas en
este trabajo. Como se observa de las condiciones del criterio,
ninguna de ellas considera a parámetros derivados del
conjunto de validación, por lo que estas reglas resultan
válidas. El criterio tiene en cuenta que Monografias.comsea bajo entre los varios
resultados. Además, el hecho de considerar que Monografias.comse atribuye a que esta
elección evita soluciones en las que se ajusta
extremadamente bien ambos conjuntos de calibración y se
ajusta peor el conjunto de validación. Por ejemplo, este
es el caso para la primera fila:

Monografias.comMonografias.comMonografias.comMonografias.comMonografias.comy Monografias.com

En definitiva, el criterio establecido no sólo
permite rescatar una solución aceptable de la matriz de
resultados, sino que también permite arribar a particiones
moleculares en las que los modelos QSAR-QSPR resultantes de
dichas particiones resultan más predictivos en el conjunto
de validación.

2.3. Algoritmo clustersknn.m

La implementación del método K-Vecinos
Más Cercanos se efectúa a través del
desarrollo y posterior aplicación del algoritmo
clusterknn.m, que funciona de manera similar a clusterskmeans.m y
busca el descriptor clasificador entre los D disponibles
que consiga las mejores agrupaciones. Sin embargo, a diferencia
de K-Medias, la aplicación del método requiere
conocer de antemano un conjunto de entrenamiento. Si se utiliza
como conjunto de entrenamiento los centroides proporcionados por
el método K-Medias, entonces los grupos formados por K-NN
y K-Medias coinciden. Este resultado permitió definir el
conjunto de entrenamiento a utilizar en la técnica K-NN,
es decir, en vez de usar centroides de K-Medias se definieron
nuevos centroides. Por ejemplo, para el caso de un descriptor
clasificador, si se quieren formar dos grupos, los centros se
ubican en los valores máximo y mínimo del
descriptor. Si se busca generar tres grupos, entonces los centros
se posicionan en los valores máximo, medio y mínimo
del descriptor considerado. Para mayor cantidad de grupos, los
centros se ubican en iguales intervalos del descriptor. La
siguiente figura presenta la definición de los nuevos
centros.

Monografias.com

Figura 1. Esquema de
selección de nuevos centroides de d1 en
clustersknn

El algoritmo se ejecuta con la sentencia
siguiente:

[Resultknn]=clustersknn(p, tot, nclusters,
percent); (8)

El criterio matemático adoptado para la
elección del resultado se mantiene. La descripción
de las variables de entrada del algoritmo es la misma que para
clusterskmeans.m.

2.4. Algoritmo clusterslda.m

La implementación del Análisis
Discriminante Lineal a través del algoritmo clusterlda.m
se lleva a cabo de la misma manera que para clusterknn.m. Al
igual que en K-NN, el conjunto de entrenamiento está
constituido por los nuevos centroides definidos en la Figura 1, y
establecen las clases con las cuales el método
discriminará a las moléculas.

El algoritmo se ejecuta con la sentencia
siguiente:

[Resultlda]=clusterslda(p, tot, nclusters,
percent); (9)

2.5. Algoritmo clusterspca.m

La aplicación del método PCA utiliza el
algoritmo clusterspca.m. En este caso, se establecen las
agrupaciones luego de analizar el signo de las coordenadas de los
componentes principales. Por tanto, si L es el
número de componentes principales, Monografias.comserá el número de
agrupamientos obtenidos. A modo de ejemplo, si se utiliza
únicamente el primer componente principal se obtienen dos
grupos, uno correspondiente a moléculas con coordenadas
PC1>0 y otro correspondiente a moléculas con
PC1<0. La Figura 2 ilustra esta idea.

Monografias.comMonografias.com

Figura 2. Especificación de
agrupaciones en clusterspca.m

Con objeto de calcular los componentes principales, se
requiere disminuir la dimensión de la matriz de
descriptores a tratar. En nuestro caso D=1497, y la
aplicación directa de la técnica PCA no es posible.
Por tanto, se considera solamente un conjunto de descriptores
clasificadores tal que el coeficiente de correlación entre
cada par de descriptores i y j ( Monografias.com) sea menor al valor
límite 0.5. De esta manera, se evita utilizar descriptores
que se encuentren muy correlacionados, pues varían de la
misma forma y no contribuyen al proceso de
clasificación.

Una vez que se tiene una matriz reducida de descriptores
linealmente independientes, se buscan todas las combinaciones
posibles de 2 descriptores, cada una de las cuales permite
obtener al primer y segundo componente principal y, por tanto, a
2 y 4 grupos, respectivamente. Para obtener el tercer componente
principal, se requiere la combinación de 3 descriptores.
La búsqueda combinatorial exacta de 3 descriptores
requiere una mayor demanda computacional, y el problema resulta
más complejo aún si el número de
descriptores aumenta. Por tanto, una vez que se elige la mejor
solución de 2 descriptores clasificadores, se busca el
tercer descriptor que mejor se combine con los 2 descriptores
previamente elegidos.

El algoritmo se ejecuta con la sentencia
siguiente:

[Resultpca]=clusterspca(p,tot,rlim,nclusters,percent);
(10)

donde rlim es 0.5 en nuestro caso.

2.6. Método HCA

Al tratarse el Análisis de Agrupamiento
Jerárquico de un método gráfico, no se lo
utiliza en este trabajo por la dificultad que presenta a la hora
de programar su algoritmo para la exploración de
más de mil descriptores clasificadores. Sí puede
aplicarse, en cambio, al tratamiento de unos pocos descriptores
de unas pocas moléculas, lo cual no es ninguno de los
casos aquí tratados.

3. Resultados

A continuación se presentan en tablas los
principales resultados encontrados para cada propiedad ensayada,
luego de aplicar los algoritmos basados en las distintas
técnicas de clasificación. Cada uno de estos
resultados se basó en el criterio matemático
establecido previamente para seleccionar una solución
balanceada.

Por otro lado, también se calcularon algunas
soluciones en las que se aplican los métodos K-Medias,
K-NN y LDA con el mismo descriptor clasificador. Esto se hizo a
fines comparativos y de discusión de los resultados
hallados si se considera la misma variable
clasificadora.

El número de agrupamientos considerados en los
cálculos para los distintos métodos fue K
= 2, 3, 4, 10, 15, 20, 25, y 30, a excepción del
método PCA, que admite Monografias.com2, 4, 8, y 16.

Tabla 2. Actividad
anti-VIH

Monografias.com

Tabla 3. Solubilidades
acuosas

Monografias.com

Tabla 4. Toxicidades
acuosas

Monografias.com

4. Discusión

Se observa de las Tablas 2-4 que, para un número
de agrupamientos determinado, los errores obtenidos en cal1 con
los métodos de clasificación K-Medias, K-NN, LDA y
PCA tienden a ser parecidos en las tres propiedades ensayadas,
sin observar discrepancias apreciables. Lo mismo sucede para el
caso de las comparaciones en cal2 y val. A su vez, los conjuntos
de calibración y validación tienden a tener errores
que no se diferencian demasiado entre sí, por lo que los
conjuntos obtenidos para estos cuatro métodos tienden a
ser balanceados.

Ahora, cómo se explica que diferentes
métodos tiendan a generar soluciones parecidas, para un
número de agrupamiento determinado? Para responder a este
interrogante, debemos plantear lo que sucede con el
desempeño de estos métodos si utilizan el mismo
descriptor clasificador. Las Tablas 5-7 muestran discrepancias
mayores en el error de los conjuntos de calibración y
validación, dependiente del método que se use, por
lo que no se obtienen conjuntos balanceados en estas condiciones.
Esto sucede especialmente en los conjuntos moleculares de
solubilidades acuosas y actividades anti-VIH-1, que al parecer
son conjuntos más heterogéneos para el modelo
QSAR-QSPR.

La conclusión a la que se llega es que la
aplicación del criterio matemático para la
selección de la mejor solución entre varias
posibilidades, que surgen de explorar un gran número de
descriptores, permite unificar el funcionamiento de los
métodos clasificadores aquí estudiados. Esto surge
de las tres propiedades estudiadas en el trabajo actual y
podría extenderse al tratamiento de otras
propiedades.

Tabla 5. Actividad
anti-VIH

Monografias.com

Tabla 6. Solubilidades
acuosas

Monografias.com

Tabla 7. Toxicidades
acuosas

Monografias.com

Capítulo 5.

Conclusiones

El objetivo principal del Trabajo de Tesina consiste en
establecer una correcta clasificación molecular que
permita seleccionar de manera racional conjuntos moleculares
balanceados para su posterior aplicación en la
Teoría QSAR-QSPR.

En función de los resultados obtenidos, se puede
concluir que:

  • A la hora de armar conjuntos moleculares
    balanceados, resulta necesario buscar el mejor resultado de
    clasificación de manera que tenga en cuenta tanto las
    características estructurales de las moléculas
    como a la propiedad experimental objeto de
    estudio.

  • El criterio matemático establecido resulta
    funcionar de manera general sobre los distintos datos, y
    permite unificar los métodos estudiados. Esto es
    valioso si para un determinado problema de
    clasificación uno no sabe a cual método
    recurrir.

  • Al tratarse HCA de un método gráfico,
    no se lo utilizó en este trabajo por la dificultad que
    presenta a la hora de programar su algoritmo para la
    exploración de más de mil
    descriptores.

Partes: 1, 2, 3, 4, 5, 6, 7
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter