Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

El Problema de la Extracción Automática de Conocimiento (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

11

Muchísimas formas de calcular la distancia:
Distancia Euclídea:

Distancia de Manhattan:

Distancia de Chebychev:

Distancia del coseno:
cada ejemplo es un vector y
la distancia es el coseno del ángulo que forman

Distancias por Diferencia:
ejemplo: if x=y then D=0 else D=1
Distancia de Edición:
Distancias Específicas: para los ejemplos complejos de CBR.
Similitud/Distancia
Valores Continuos (conveniente normalizar entre 0-1 antes)
Valores Continuos.
No es necesario normalizar
Valores Discretos

Monografias.com

12

Si sólo nos basamos en la evidencia, una solución al problema sería cualquier hipótesis que cubre la evidencia.

Si el lenguaje es expresivo, pueden existir infinitas hipótesis.

Objetivo: Elegir la hipótesis h que MINIMIZA EL ERROR de la hipótesis h respecto la función objetivo f,

¿Qué error?
Evaluación de Hipótesis
El problema del aprendizaje NO está especificado completamente.

Monografias.com

13
Medidas de Error para evaluar Hipótesis

TRUE ERROR:
caso discreto caso continuo (p.ej.error cuadrático medio)

SAMPLE ERROR :
caso discreto caso continuo (p.ej.error cuadrático medio)

donde (?(true)=1, ?(false)=0) y n= |trainSet|
Evaluación de Hipótesis

Monografias.com

14
Problemas típicos:
under-fitting
(sobregeneralización o subajuste)
over-fitting
(sobreespecialización o superajuste).

Definición de over-fitting: Una hipótesis h ? H sobre-especializa o superajusta si existe una hipótesis alternativa h’ ? H tal que:

y
Evaluación de Hipótesis
Sample or train error
True error

Monografias.com

15

Problema: f (la función objetivo) no se conoce!!!

Podemos calcular el SAMPLE ERROR pero no el TRUE ERROR.

Si nos fijamos sólo en toda la muestra y minimizamos el SAMPLE ERROR, aparecerán dos problemas:
si la evidencia es sólo positiva: under-fitting o sobregeneralización.
Si la evidencia tiene más de una clase: over-fitting o sobreespecialización.
Evaluación de Hipótesis

Monografias.com

16

APROXIMACIONES:
Asumir distribuciones a priori.
Criterio de simplicidad, de descripción o transmisión mínimas.
Separar: Training Set y Test Set.
Cross-validation.
Basadas en refuerzo.

Otras preguntas importantes:

Evaluación de Hipótesis
¿Qué hipótesis elegimos?
¿Cómo sabemos lo bien que se comportará en el futuro?
En caliente
En frío
En caliente
En frío

Monografias.com

17
Evaluación por técnicas bayesianas.
La mejor hipótesis es la más probable.
Basadas en el teorema de Bayes. Despejan P(h|D).
La distribución de hipótesis a priori P(h) y la probabilidad de unas observaciones respecto a cada hipótesis P(D|h) deben ser conocidas.
Son sólo técnicas evaluadoras aunque si el conjunto de hipótesis H es reducido se pueden utilizar en algoritmos de aprendizaje.
Permiten acomodar hipótesis probabilísticas tales como “este paciente de neumonía tiene un 93% de posibilidades de recuperarse”.
Muchas veces no se conoce P(h) o incluso P(D|h). Se hacen suposiciones: distribución uniforme, normal o universal.
Evaluación de Hipótesis

Monografias.com

18
Teorema de Bayes, MAP y Maximum Likelihood:
P(h|D): probabilidad de una hipótesis dado un cjto. de datos.
P(h): probabilidad a priori de las hipótesis.
P(D|h): probabilidad de D dada la hipótesis.
P(D): probabilidad a priori de los datos (sin otra información).
Teorema de Bayes: (prob. a posteriori a partir de a priori)

Criterio MAP (Maximum a Posteriori) (h es indep. de P(D)):

Maximum Likelihood (asumiendo P(h) uniforme):
Evaluación de Hipótesis
El Naive Bayes Classifier es un caso particular de esto.

Monografias.com

19
Evaluación bayesiana:

Si el cjto. de hipótesis H es pequeño y conocido:
Se puede asumir la distribución uniforme:

Si H es infinito:
La distribución uniforme no está bien definida (P=0).
Aunque el maximum likelihood se puede seguir utilizando.
Evaluación de Hipótesis

Monografias.com

20
El principio MDL (Minimum Description Length):
Asumimos P(h) como la distribución universal (Occam’s Razor):

donde K(·) es la complejidad descripcional (Kolmogorov) de H.

FORMALIZACIÓN DE LA NAVAJA DE OCCAM:
“Las hipótesis con mínima descripción más pequeña
son más probables”.

Asumimos P(D|h) de la misma manera:

Evaluación de Hipótesis

Monografias.com

21
El principio MDL:

A partir de MAP tenemos:

Resulta en:

Evaluación de Hipótesis
PRINCIPIO MDL: La hipótesis más probable es la que minimiza la suma de su descripción y la descripción de los datos respecto a ella.

Monografias.com

22
PARTICIÓN DE LA MUESTRA
Evaluar una hipótesis sobre los mismos datos que han servido para generarla da siempre resultados muy optimistas.
Solución: PARTIR EN: Training Set y Test Set.
Si los datos disponibles son grandes (o ilimitados) :
Training Set: cjto. con el que el algoritmo aprende una o más hipótesis.
Test Set: cjto. con el que se selecciona la mejor de las anteriores y se estima su validez.

Para problemas con clase discreta, se calcula la “accuracy”, que se mide como el porcentaje de aciertos sobre el test set.
Para problemas con clase continua, se utiliza la media del error cuadrático u otras medidas sobre el test set.
Evaluación de Hipótesis

Monografias.com

23
PARTICIÓN DE LA MUESTRA (Cross-validation).
Si los datos disponibles son pequeños, partir los datos en dos cjtos restringe el número de ejemplos disponibles para el algoritmo –> peores resultados. SOLUCIONES:
2-fold cross-validation: se parte en 2 cjtos. S1 y S2 de igual tamaño. Se entrena el algoritmo con S1 y se evalúan las hipótesis H1 con S2. Se entrena luego el algoritmo con S2 y se evalúan las hipótesis H2 con S1. Se selecciona la hipótesis con la mejor precisión o el menor error.
K-fold cross-validation: los n datos se parten k veces (k

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter