- ¿Por qué surge la Minería
de Datos? - ¿Qué es la Minería de
Datos (MD)? - Fase
de Preparación de los datos - La
entrada del proceso de MD - La
salida del proceso de MD - Notación
- Clasificación
- Bibliografía
¿Por
qué surge la Minería de Datos?
El análisis e interpretación manual de los
datos se torna impráctico (lento, caro y subjetivo) en
la medida que los volúmenes de datos crecen
exponencialmente.
Distintos factores influyen en la acumulación de
datos:
Dispositivos de almacenamiento más
baratos.
Transacciones comerciales son almacenadas
mayoritariamente en formato electrónico.
Captura automática de actividades realizadas en
Internet.
Desarrollo de algoritmos eficientes y robustos para el
procesamiento de estos datos.
Poder computacional más barato)métodos
computacional/ intensivos para el análisis de
datos.
Ventajas comerciales y científicas
¿Qué es
la Minería de Datos (MD)?
"… proceso de extraer conocimiento útil y
comprensible, previamente desconocido, desde
grandes cantidades de datos almacenados en distintos
formatos" [Witten y Frank, 2000]
"… uso de datos históricos para descubrir
regularidades generales y mejorar las decisiones
futuras" [Mitchell, 1999]
"… proceso que tiene como objetivo convertir datos
en conocimiento" [Hernández Orallo,
2004]
"… es un paso particular en el proceso de
KDD que consiste en la aplicación de
algoritmos específicos para extraer
patrones (o modelos) desde los datos" [Fayyad,
1996]
Algunas áreas de aplicación de la
MD
Aplicaciones financieras y bancarias
Análisis de mercado, distribución y
comercio en general
Seguros y salud privada
Educación
Procesos industriales
Medicina
Biología, bioingeniería y otras
ciencias
Telecomunicaciones
Internet
Turismo, policiales, deportes, política, … y
muchas más
Aprendizaje automático (AA)
"… cualquier sistema que se considere
"inteligente" debería poseer la habilidad de
aprender, es decir mejorar automáticamente con
la experiencia." [Russell, 2002]
"… cualquier cambio en un sistema que le permite
desempeñarse mejor la próxima vez,
sobre la misma tarea u otra tomada de la misma
población"" [Herbert Simon]
"Un programa de computadora se dice que aprende
desde la experiencia E con respecto a alguna
clase de tareas T y medida de performance
P, si mejora su perfomance con las tareas en
T, con respecto a la medida P, basado
en la experiencia E" [Mitchell,
1997]
Aprendizaje automático
Algunos factores implícitos en las definiciones
de AA:
cambios en el comportamiento para lograr una mejor
performance futura.
Existencia de algún tipo de experiencia de
entrenamiento.
la componente de aprendizaje está "embebida" en
un sistema de toma de decisiones automático
que la contiene.
La componente más variable es el origen de la
experiencia de entrenamiento:
Interacción con el ambiente u otros
agentes
Interacción usuario-sistema (agentes de
interfaz)
Aprendizaje por observación o asistido por otros
agentes (consejos)
Introspección de los propios procesos
internos
Bases de datos
Aprendizaje automático versus Minería
de Datos
Algunos autores consideran que AA _ MD pero ésto
no es así.
MD toma la experiencia desde Bases de datos. AA incluye
otras formas de entrenamiento.
En MD no sólo es importante la performance sino
que se suele requerir una representación
explícita del conocimiento adquirido de manera tal
que las decisiones puedan ser explicadas. AA incluye
métodos que no son adecuados para estos fines (Neural
Networks).
En MD la elaboración de la entrada del proceso y
el análisis de la salida suele requerir una
participación humana considerable. En AA estas
responsabilidades suelen ser asignadas a otras
componentes del sistema.
MD incluye técnicas originadas en la
modelización estadística que no son propias del
AA.
Fase de
Preparación de los datos
Sub-fase de recopilación e integración de
los datos
Determinar fuentes de información útiles y
donde conseguirlas.
Coleccionar múltiples bases de datos
heterogéneas en un único repositorio con un
esquema unificado (almacén de datos o data
warehouse).
Sub-fase de selección, limpieza y
transformación
Detección de valores anómalos (no siempre
eliminados).
Tratamiento de datos faltantes (o perdidos).
Selección de atributos relevantes
(columnas).
Selección de una muestra de datos
(filas).
Construcción de nuevos atributos (agrupamiento,
numerización, discretización).
Fase de Minería de datos
1. Determinar qué tipo de tarea de MD es el
más apropiado (clasificación, agrupamiento,
etc).
2. Elegir tipo de modelo (árboles de
decisión, reglas de clasificación, Redes
Neuronales).
Página siguiente |