Una introducción al aprendizaje estadístico (página 2)

Partes: 1, 2

2.
Aprendizaje
estadístico

Como hemos visto un sistema con
aprendizaje debe, a partir de un conjunto de información acerca de un proceso
computacional, construir un modelo que
permita predecir nuevos fenómenos asociados a él.
Debe por lo tanto, generar un modelo con capacidad de
generalizar. Se hace necesario entonces que el aprendizaje
efectúe algún tipo de inducción a partir de la información
disponible. Para poder inducir
se precisa de un conjunto de medidas o ejemplos asociado al
proceso que se quiere modelar. Este tipo de aprendizaje,
denominado aprendizaje inductivo, se convierte de hecho en
un aprendizaje con ejemplos que es en el fondo un
problema (especialmente difícil) de aproximación
de una función de
la que se conoce únicamente un conjunto de puntos. La
complejidad de dicho problema es especialmente notoria si tenemos
presente que:

El número de variables asociado al espacio de entrada de
la función a aproximar es elevado. Puesto que los
procesos a
modelar por estos sistemas suelen
ser altamente complejos ya que son difíciles de
caracterizar, es habitual que dependan de muchas variables,
máxime al ser estos extraídos de entornos
reales.
Las muestras disponibles suelen ser
escasas, estar dispersas y tener asociadas una
cierta incertidumbre.

Extraer muestras de un proceso real puede ser costoso
por lo que en general no se dispone de un número ilimitado
de muestras. De esta manera, la información disponible
para aproximar es limitada. Además, puesto que el
número de variables de entrada suele ser elevado, las
muestras tienden a estar muy alejadas entre sí en el
espacio de entrada. Así la correcta reconstrucción
de la función se hace más difícil. Por
último, las muestras pueden llevar consigo de forma
inherente una cierta incertidumbre (p.e.
fluctuación, ruido). En
consecuencia, no resulta útil aproximar de forma precisa
los puntos disponibles (p.e. interpolar). Esta incertidumbre
asociada a las muestras puede deberse a diversos
motivos:

Debido a la imprecisión de los aparatos de
medida utilizados a la hora de extraer muestras del proceso,
puede existir ruido en las medidas.
La información de que dispone es incompleta
(p.e. en algunas muestras faltan el valor de
algunas las variables implicadas).
El proceso que analizamos es
no-determinístico.

Por lo tanto, el aprendiz debe reconstruir una
función que suele operar en espacios de alta
dimensión a partir de un conjunto limitado de ejemplos
dispersos y con ruido. Para poder tratar con la incertidumbre
existente en el proceso de reconstrucción se hace
necesario que el aprendiz infiera o estime a partir del conjunto
de muestras (o conjunto de entrenamiento)
una estructura,
modelo o función de tipo estadístico que defina al
proceso computacional del que proceden los datos.
Además la definición del problema del aprendizaje
en términos estadísticos nos va a permitir
cuantificar claramente aspectos como la capacidad de
generalización del sistema con aprendizaje. Este modelo
estadístico inferido del proceso a partir de ejemplos
puede servir tanto para realizar una tarea de interés
(ingeniería) como para conseguir un mejor
entendimiento de los datos disponibles y, por extensión,
del proceso al que representan.

Existen dos maneras fundamentales de aprender con
ejemplos. En la primera, conocida con el nombre de aprendizaje
no supervisado o auto-organizado, el objetivo pasa
por descubrir las propiedades estadísticas de un vector aleatorio X
asociado al proceso computacional a modelar. Para ello
únicamente se dispone de un conjunto de muestras
procedentes de variables de entrada del proceso, llamado
D={xi, i=0…N-1} siendo xi una
muestra
aleatoria extraída de un vector aleatorio X de
dimensión p que toma valores reales
que opera sobre un espacio de entrada.

En cambio, el
segundo tipo de aprendizaje, conocido con el nombre de
aprendizaje supervisado, tiene por finalidad revelar las
relaciones existentes entre dos vectores
aleatorios X e Y que, al igual que en el caso anterior, forman
parte del proceso computacional a modelar. En este aprendizaje se
dispone de un conjunto de pares de muestras procedentes de dichas
variables de entrada y salida de dicho proceso, denominado
D={(xi, yi), i=0…N-1} con xi~X
Î Ʀp y
yi~YÎ
Ʀm

De hecho, estos dos tipos de aprendizaje suelen ser
complementarios puesto que es posible aprender de forma
más fácil las relaciones entre X e Y si previamente
tenemos información acerca de la estructura estadística de X. Por ello es habitual
encontrar en la práctica sistemas con aprendizaje
híbrido en los que el aprendizaje no supervisado
facilita el aprendizaje de la parte supervisada, o si se quiere,
el aprendizaje no supervisado guía al supervisado en la
búsqueda de la solución. A continuación
daremos un breve repaso a estos dos paradigmas de
aprendizaje desde un punto de vista estadístico. Veremos
también de qué elementos se compone un aprendizaje
estadístico y cuales son las limitaciones de tipo
práctico existentes en este tipo de
aprendizaje.

2.1. Aprendizaje no supervisado.

En el aprendizaje estadístico no supervisado el
objetivo final sería estimar de forma precisa la
función densidad de
probabilidad
del vector aleatorio X, denominada fX(x), ya que
representa la estructura estadística de X, el cual
está asociado al proceso computacional que queremos
modelar. De esta manera obtenemos toda la información de
acerca de X en términos estadísticos.

Por ejemplo, una información de la que disponemos
a partir de esta información es la de los grupos naturales
(clusters) existentes, ya que se corresponden con
regiones en las que fx(x) tiene máximos locales.
Así en el caso de disponer de un conjunto de imágenes
sería posible a partir del aprendizaje no supervisado
utilizar dicha información para poder almacenar estas
imágenes de forma comprimida.

En la práctica la estimación de
Px(x) es demasiado complicada debido a los escasos
recursos
disponibles. Así el aprendizaje no supervisado suele
buscar una formulación del problema más directa.
Esta se basa en construir una función que aproxime al
vector aleatorio X. Buscamos por lo tanto construir una
función de x a partir de un conjunto de
entrenamiento D={xi,i=0…N-1}, denominada F(x;
D) que sea un estimador de X tal que:

X»
X’ = F(x;D)

2.2. Aprendizaje supervisado.

Dados dos vectores aleatorios X e Y, es decir un
conjunto de variables procedentes del espacio de entrada y salida
del proceso a modelar, el objetivo del aprendizaje
supervisado es descubrir la relación existente entre
estos dos vectores. Por ejemplo, podemos necesitar relacionar la
evolución de la bolsa a escala mundial
(Y) en función de ciertas variables macroeconómicas
(X).

Puesto que interesa caracterizar Y en relación
con X y únicamente se dispone de un número finito
de muestras D={(xi, yi), i=0…N-1}, deberemos
utilizar D para construir una estimación de Y a partir de
una función del vector aleatorio X, es decir,

Y »
Y’ = F(x;D)

En este tipo de aprendizaje distinguiremos un caso
general (regresión) y otro particular
(clasificación) cuyas peculiaridades hacen de él un
caso de estudio aparte.

2.3. Componentes de un sistema de aprendizaje
estadístico.

A partir de un conjunto de entrenamiento D de
tamaño N y de una función parametrizable F(x; W)
(p.e. una red neuronal)
siendo W el conjunto de parámetros asociados a la
función (p.e. los pesos de la red neuronal), el problema
del aprendizaje estadístico pasa por calcular W de manera
que se consiga un objetivo estadístico, p.e. minimizar una
función de costo
estadística. Para ello se utilizará algún
método de
optimización. El sistema de ecuaciones
obtenido al aplicar el método de optimización sobre
la función de costo estadístico es lo que se conoce
como algoritmo de
entrenamiento. Dicho algoritmo es en realidad un sistema
dinámico, es decir un conjunto de ecuaciones que
evolucionan en el tiempo. Este
sistema dinámico deberá converger hacia el
mínimo de la función de costo. No obstante,
será habitual definir un criterio de parada del algoritmo
que permita parar la ejecución del mismo antes de que
converja.

EJEMPLO

Ahora se va a considerar un ejemplo muy simple. Los
caramelos sorpresa son de dos sabores: CEREZA y LIMA. El
fabricante de los caramelos tiene un sentido del humor muy
peculiar, y envuelve los caramelos en un envoltorio opaco en el
que no se indica el sabor. Los caramelos se introducen en grandes
bolsas que son de cinco tipos, otra vez indistinguibles desde
afuera:

h1: 100% cereza

h2: 75% cereza + 25% lima

h3: 50% cereza + 50% lima

h4: 25% cereza + 75% lima

h5: 100% lima

Dada una nueva bolsa, la variable aleatoria H (para
las hipótesis) denota el tipo de bolsa, así que
puede tomar valores desde h1 hasta h5. Por
supuesto, H no es directamente observable. Cuando se abren y se
inspeccionan los caramelos, se revelan los datos D1,
D2,…, Dn, donde cada Di
es una variable aleatoria con valores posibles de CEREZA y LIMA.
La tarea básica a la que se enfrenta el agente es predecir
el sabor del siguiente caramelo. A pesar de que aparentemente
parece trivial, este escenario sirve para introducir muchos de
los aspectos principales. Realmente, el agente necesita inferir
una teoría
de su mundo, aunque sea muy simple.

El aprendizaje bayesiano simplemente calcula la
probabilidad de cada hipótesis dados los datos, y realiza
predicciones sobre estas bases. Es decir, se realizan las
predicciones utilizando todas las hipótesis,
ponderadas por sus probabilidades, y no utilizando
únicamente la "mejor" hipótesis. De esta forma, el
aprendizaje se reduce a inferencia probabilística. Si
D representa todos los datos, y d el valor
observado; la probabilidad de cada hipótesis se obtiene
aplicando la regla de Bayes:

(2.1)

Ahora suponga que queremos hacer una predicción
sobre una cantidad desconocida X. tenemos

(2.2)

Donde se ha asumido que cada hipótesis determina
una distribución de probabilidades de X. esta
ecuación muestra que las predicciones son el resultado de
ponderar las predicciones de las hipótesis individuales.
Las hipótesis son en si mismas intermediarios entre los
datos crudos y las predicciones. Las cantidades clave en el
enfoque bayesiano son las hipótesis a priori.
P(hi) y la verosimilitud de los datos dada cada una de
las hipótesis, P(d/hi).

En este ejemplo asumiremos, como información
proporcionada por el fabricante, que la distribución a
priori sobre h1,…,h5 viene dada por
[0.1 , 0.2 , 0.4 , 0.2 , 0.1]. La verosimilitud de los datos se
calcula asumiendo que las observaciones son independientes e
idénticamente distribuidas (iid) así
que

(2.3)

La figura (1) muestra como cambian las probabilidades a
posteriori de las cinco hipótesis a medida que se van
observando los 10 caramelos de lima. Nótese que las
probabilidades comienzan con sus valores a priori, por lo que
h3 es inicialmente más probable que las
demás, incluso después de que se desenvuelva el
primer caramelo. Después de desenvolver dos caramelos de
lima, h4 es la más probable; después de
tres o más, h5 (la terrorífica bolsa con
todos los caramelos de lima) es la más probable.
Después de 10, estamos bastante seguros de
nuestro destino.

El ejemplo muestra que, a la larga, la verdadera
hipótesis domina la predicción bayesiana. Esto
es característico del aprendizaje bayesiano. Para
cualquier a priori fija que no excluya la hipótesis
verdadera, la probabilidad a posteriori de cualquier
hipótesis falsa finalmente desaparecerá,
simplemente porque la probabilidad de generar datos no
característicos de forma indefinida es cada vez
más pequeña. Más importante, la
predicción bayesiana es óptima, tanto si el
conjunto de datos es pequeño, como si es grande. Dada la
hipótesis a priori, cualquier otra predicción
será correcta con menos frecuencia.

Por supuesto, la optimalidad del aprendizaje bayesiano
tiene un precio. En los
problemas
reales de aprendizaje, el espacio de hipótesis es
normalmente muy grande. En algunos casos, el cálculo
del sumatorio de la ecuación (2.2) (o la integración en caso continuo) es tratable,
pero en la mayoría de los casos debemos recurrir a
métodos
aproximados o simplificados.

Figura No. 1 Evolución de las
probabilidades condicionales de h1,h2,h3,h4 y h5

P(h5│d)

Probabilidades para el momento en el que se destapa el
primer caramelo

= 0

= 0.1

= 0.4

= 0.3

= 0.2

Probabilidades para el momento en el que se destapa el
segundo caramelo

= 0

= 0.038

= 0.307

= 0.346

= 0.307

Probabilidades para el momento en el que se destapa el
tercer caramelo

= 0

= 0.0131

= 0.210

= 0.355

= 0.421

Como se observa en las ecuaciones anteriores; a medida
que se van destapando caramelos las ecuaciones se van
actualizando con las nuevas probabilidades, cosa que hace
más exactas las probabilidades a posteriori.

A continuación se muestra la tabla para 10
iteraciones, es decir para los diez primeros caramelos
destapados.

	h1	h2	h3	h4	h5
A priori	0,1	0,2	0,4	0,2	0,1
1	0	0,1	0,4	0,3	0,2
2	0	0,03846	0,30769	0,34615	0,30769
3	0	0,01316	0,21053	0,35526	0,42105
4	0	0,00413	0,13223	0,33471	0,52893
5	0	0,00122	0,07805	0,29634	0,62439
6	0	0,00034	0,04405	0,25086	0,70475
7	0	9,4E-05	0,02407	0,20562	0,77021
8	0	2,5E-05	0,01285	0,16468	0,82245
9	0	6,6E-06	0,00675	0,12968	0,86357
10	0	1,7E-06	0,0035	0,10087	0,89563

BIBLIOGRAFÍA:

Russell Stuart J. Inteligencia
artificial un enfoque moderno.2a edición
2004

Aprendizaje estadístico:

Redes
Neuronales y Maquinas de Soporte Vectorial: Un enfoque
global:

http://www.uv.mx/anmarin/slides/180205Gonzalez.pdf

Visitar la FUKL— www.fukl.edu

AUTORES:

John Edwin Gallego Sandoval

Matemático Egresado de la Fundación
Universitaria Konrad Lorenz

Dirigido por:

Ing. Pervys Rengifo Rengifo

Docente e Investigador de la Fundación
Universitaria Konrad Lorenz en el programa de
Ingeniería
de Sistemas.

Bogotá, Colombia, julio
de 2007.

Fundación Universitaria Konrad Lorenz-Grupo de
Investigación PROMENTE-Aplicación de
Máquinas de Soporte Vectorial a Problemas
de Clasificación y Regresión

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente

Una introducción al aprendizaje estadístico (página 2)

2. Aprendizaje estadístico

EJEMPLO

BIBLIOGRAFÍA:

2.
Aprendizaje
estadístico