Minería de datos [Witten & Frank 2000]: proceso de
extracción de conocimiento válido, útil,
comprensible, y desconocido, a partir de datos almacenados.
válido: el conocimiento obtenido debe ser preciso
("correcto") para nuevos conjuntos de datos (no sólo para
el conjunto utilizado en su obtención). útil: el
conocimiento obtenido debe servir a la organización para
tomar decisiones que le reporten algún beneficio.
comprensible: el conocimiento obtenido debe ser fácil de
interpretar y usar. novedoso: el conocimiento obtenido debe
aportar a la organización, información desconocida
hasta ese momento. ¿Qué es la Minería de
Datos?
Minería de datos La minería de datos es una
tecnología de soporte para usuario final, cuyo objetivo es
extraer conocimiento útil y utilizable a partir de la
información contenida en las bases de datos de las
empresas. Los objetivos de un sistema de minería de datos
nos permitirían analizar factores de influencia en
determinados procesos, predecir o estimar variables o
comportamientos futuros, sementar o agrupar ítems
similares, además de obtener secuencias de eventos que
provocan comportamientos específicos.
Minería de datos Los sistemas de minería de datos
se desarrollan bajo lenguajes de ultima generación basados
en la inteligencia artificial y utilizando métodos
matemáticos, tales como: Redes neuronales
Introducción de reglas Arboles de decisión Conjunto
de reglas por clase Soporta también sofisticadas
operaciones de análisis tales como los sistemas Scoring y
aplicaciones de detección de fraude.
El proceso no trivial de identificar patrones válidos,
nuevos, potencialmente útiles y entendibles en los datos
Minería de datos
(Gp:) Conocimiento (Gp:) Patrones (Gp:) Datos Transformados (Gp:)
Datos Seleccionados (Gp:) Datos (Gp:) Datos Preprocesados (Gp:)
Selección (Gp:) Preprocesamiento (Gp:)
Transformación (Gp:) Minería de datos (Gp:)
Interpretación / evaluación Otro nombre para la
Minería de Datos: Descubrimiento de conocimiento en bases
de datos (KDD)
Fundamentos de la Minería datos Data Mining toma el
proceso de evolución más allá del acceso y
navegación retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación porque está
soportado por tres tecnologías que ya están
suficientemente maduras: Recolección masiva de datos.
Potentes computadoras con multiprocesadores. Algoritmos de Data
Mining.
Objetivos y características de la minería de datos
Explorar los datos se encuentran en las profundidades de las
bases de datos. Consolidar los datos en un almacén de
datos. Tiene una arquitectura cliente–servidor usando
procesamiento paralelo. Facilita el uso de varias herramientas y
técnicas para la extracción de los datos. La
minería de datos produce cinco tipos de
información: — Asociaciones — Secuencias
— Clasificaciones — Agrupamientos —
Pronósticos
Alcances Minería Datos Descubrimiento automatizado de
modelos previamente desconocidos. Predicción automatizada
de tendencias y comportamientos. Aportes a la toma de decisiones
con bases y fundamentos reales basados en los dato.
Aplicativos Los ambientes para el desarrollo de las bodegas de
datos son: Oracle Data Warehouse SQL Server Entreprise ed. Sybase
– PoweDesigner, Sybase IQ
Aplicaciones financieras y de banca: obtención de patrones
de uso fraudulento de tarjetas. obtención de perfiles de
clientes en el uso de tarjetas. obtención de correlaciones
entre indicadores financieros. análisis de riesgos en la
concesión de préstamos, … Análisis de
mercado, distribución y comercio: análisis de la
cesta de la compra. evaluación de campañas
publicitarias. obtención de perfiles de clientes.
análisis de la fidelidad de los clientes, … Otros
sectores: compañías de servicios:
telecomunicaciones, agua, gas, …. correo electrónico,
agendas personales. turismo tráfico uso de web …
Ejemplo1: análisis de riesgo en préstamos
bancarios. Un banco desea disponer de un modelo que le permita
predecir qué tipo de clientes podrían no devolver
un préstamo solicitado. La entidad dispone de
información sobre préstamos anteriores, así
como datos personales de los titulares de esos
préstamos.
Ejemplo1: análisis de riesgo en préstamos
bancarios. A partir de estos datos, las técnicas de DM
podrían generar un modelo de los datos, consistente en un
conjunto de reglas, que permitiesen predecir en el futuro, el
posible comportamiento de un cliente que solicitase un
préstamo.
Ejemplo1: análisis de riesgo en préstamos
bancarios. Para nuestro estudio, existen dos clases de cliente:
los que devuelven los préstamos y los que no los
devuelven. Las reglas generadas en el proceso de DM, deben
predecir la clase de un cliente (variable objetivo) a partir de
sus características (variables predictivas).
Ejemplo1: análisis de riesgo en préstamos
bancarios. Regla 1: Si cuentas-morosas > 0 entonces
devuelve-préstamo = no Regla 2: Si cuentas-morosas = 0 Y (
salario>2.500 O D-credito>10) entonces
devuelve-préstamo = sí …
(Gp:) X1, X2, …, X5 3, 5, …, 8 2, 4, …, 0 0, 1, …, 7
Ejemplo 2
(Gp:) X1, X2, …, X5 3, 5, …, 8 2, 4, …, 0 0, 1, …, 7
(Gp:) vs. (Gp:) X1 (Gp:) X2 (Gp:) P(X1) (Gp:) P(X2|X1) fumar
cáncer Ejemplo 2
¿Para qué puede ser útil la Minería
de Datos? 1 exabyte (1 millón de terabytes) se genera
anualmente en todo el mundo
¿Para qué puede ser útil la Minería
de Datos? (Cont.) Las BD se usan para: Guardar datos Confirmar
hipótesis previas ¿Probar hipótesis
alternativas?
¿Para qué puede ser útil la Minería
de Datos? (Cont.) Control Diagnóstico Predicción
Toma de decisiones (Gp:) Conocimiento (Gp:) Patrones
Herramientas para la Minería de Datos Métodos
estadísticos Reglas de asociación (si-entonces)
Árboles de decisión Modelos Gráficos Redes
Neuronales Algoritmos Genéticos Lógica Difusa
Ejemplo3: definir grupos diferenciados de empleados. El
departamento drecoursesos humanos de una gran empresa, desea
categorizar a sus empleados en distintos grupos, con el objetivo
de establecer una trato personalizado con ellos y definir las
políticas sociales de la empresa. La organización
dispone en sus bases de datos de información sobre sus
empleados.
Ejemplo3: definir grupos diferenciados de empleados. ID Sueldo
Casado Coche Hijos Alq/Prop Sindic. Bajas/Año
Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2
20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí
Sí 2 Propietario Sí 5 10 H 4 30000 Sí
Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0
Propietario Sí 1 6 H 6 40000 No Sí 0 Alquiler
Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000
No Sí 0 Propietario Sí 2 6 M 9 20000 Sí
Sí 3 Propietario No 7 5 H 10 30000 Sí Sí 2
Propietario No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000
Sí Sí 2 Propietario No 3 1 H 13 20000 No No 0
Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7
H 15 8000 No Sí 0 Alquiler No 3 2 H
Ejemplo3: definir grupos diferenciados de empleados. ID Sueldo
Casado Coche Hijos Alq/Prop Sindic. Bajas/Año
Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2
20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí
Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1
Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1
6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No
No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop
Sí 2 6 M 9 20000 Sí Sí 3 Prop No 7 5 H 10
30000 Sí Sí 2 Prop No 1 20 H 11 50000 No No 0
Alquiler No 2 12 M 12 8000 Sí Sí 2 Prop No 3 1 H 13
20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler
Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H A partir
de estos datos, las técnicas de DM podrían generar
un modelo de los datos, consistente en un conjunto de grupos de
empleados con características similares. Este modelo
proporcionaría una descripción "mas significativa"
de los datos disponibles.
Ejemplo3: definir grupos diferenciados de empleados. Grupo 1: 5
ejemplos Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2
Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop :
Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2
Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M
-> 0.4 Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No ->
1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler
-> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0
Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M
-> 0.75 Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí
-> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop :
Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67
Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8
Sexo : H -> 0.83 M -> 0.17 GRUPO 1: Solteros, sin hijos y
de alquiler. Poco sindicados. Muchas bajas. GRUPO 2: Solteros,
sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente
mujeres. GRUPO 3: Casados, con hijos y propietarios. Poco
sindicados. Normalmente hombres.
Técnicas de Minería de Datos Tareas de
Minería de Datos. Modelos de datos Vista minable Tarea de
DM Problema Tipo de conocimiento Técnica de DM …
Técnica de DM Algoritmo … Algoritmo Modelo de los
datos
Tareas de Minería de Datos. Modelos de datos Vista minable
Tareas de DM Predictivas Descriptivas Estimación de
valores futuros o desconocidos de variables de interés
(variable objetivo) a partir de otras variables independientes
(predictivas). Identificación de patrones en los datos que
los explican o resumen. Ejemplos: 1 y 3 Ejemplos: 2, 4 y 5
Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable
Tareas de DM Predictivas Descriptivas Clasificación
Regresión Asociación Agrupamiento (clustering)
Correlación Técnicas de Minería de
Datos
Tareas de Minería de Datos. Modelos de datos Vista minable
Dominio de ejemplos: D tipo_ejemplo = {A1:D1, A2:D2, …, An:Dn}
ejemplo e = {A1:v1, A2:v2, …, An:vn} / vi?Di e = < v1, v2,
…, vn> / vi?Di D = {e: < v1, v2, …, vn> / vi?Di}
Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable
Tareas de DM Predictivas Descriptivas Clasificación
Regresión Asociación Agrupamiento (clustering)
Correlación Técnicas de Minería de
Datos
Tareas de Minería de Datos. Tareas de DM Predictivas
Descriptivas Clasificación Regresión
Asociación Agrupamiento (clustering) Correlación
Técnicas de Minería de Datos Clasificación
Clasificación suave Estimación de probabilidad de
clasificación Categorización
Tareas de Minería de Datos. Modelos de datos Vista minable
Tareas predictivas. La clasificación: A cada ejemplo del
tipo de objeto a clasificar (registro de la base de datos) se le
asigna una clase, representada por el valor de un atributo
(atributo de clase). El dominio del atributo de clase es
discreto, cada valor representa una clase de objeto. Los
restantes atributos que sean significativos para determinar la
clase, son utilizadas por las técnicas de
clasificación para generar funciones (reglas) que permiten
determinar la clase de un ejemplo a partir de los valores de sus
atributos significativos. El objetivo de la tarea es poder
predecir la clase de nuevos ejemplos a partir del valor de sus
atributos significativos, utilizando las reglas generadas.
Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable
Tareas predictivas. La clasificación: Entrada:
tipo_ejemplo = {A1:D1, A2:D2, …, An:Dn} D = {e: < v1, v2,
…, vn > / vi?Di}: dominio de ejemplos E ? D: conjunto de
ejemplos (muestra) S = {c1, c2, …, cm}: m clases, {< e, s
>: e?E, s?S}: conjunto de ejemplos etiquetado Salida: ?: E ?
S: función clasificador Técnicas de Minería
de Datos
Conclusiones Información segura y confiable Se usa como
una alternativa para la toma de decisiones en una
organización Permite tener de una manera organizada los
datos con el fin de poder extraer informes específicos en
determinados ciclos de tiempo Brinda una estructura robusta en el
almacenamiento de datos