Minería de datos

Enviado por IVÁN JOSÉ TURMERO ASTROS

Introducción

El data mining es una de las principales herramientas
que se utilizan dentro de los programas de gestión del
conocimiento como soporte a la toma de decisiones.

El fin es la extracción de información
oculta o análisis de datos mediante técnicas
estadísticas de grandes bases de datos.

Las herramientas de data mining o minería de
datos pueden responder a preguntas de negocios empresariales a
priori no planteadas o que pueden consumir demasiado tiempo para
ser resueltas.

Los programas de gestión del conocimiento se
complementan con distintas herramientas además del data
mining, como puede ser el data warehousing o el groupware. El
data mining, como herramienta de búsqueda de
información, se utiliza como sistema de apoyo a la toma de
decisiones de las altas direcciones de las empresas. Las
técnicas de data mining se centran en analizar el gran
volumen de datos, que en una primera selección pueden ser
pertinentes, pero que la aplicación de técnicas de
selección ceñida a unas determinada demanda, reduce
el tamaño de los datos eligiendo las variables más
influyentes en el problema.

En definitiva, la minería de datos es una
tecnología usada para descubrir información oculta
y desconocida, pero potencialmente útil, a partir de las
fuentes de información de la propia empresa. Obtiene un
conocimiento de un negocio, utilizando técnicas de
clustering, redes neuronales, árboles de decisión y
reglas de asociación etc.

Los Fundamentos
del Data Mining

Las técnicas de Data Mining son el resultado de
un largo proceso de investigación y desarrollo de
productos. Esta evolución comenzó cuando los datos
de negocios fueron almacenados por primera vez en computadoras, y
continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de evolución
más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación en la comunidad de
negocios porque está soportado por tres tecnologías
que ya están suficientemente maduras:

Recolección masiva de datos
Potentes computadoras con
multiprocesadores
Algoritmos de Data Mining

Las bases de datos comerciales están creciendo a
un ritmo sin precedentes. Un reciente estudio del META GROUP
sobre los proyectos de Data Warehouse encontró que el 19%
de los que contestaron están por encima del nivel de los
50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo
trimestre de 1997. En algunas industrias, tales como ventas al
por menor (retail), estos números pueden ser aún
mayores. MCI Telecommunications Corp. cuenta con una base de
datos de 3 terabytes + 1 terabyte de índices y overhead
corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
computacionales mejorados puede ahora alcanzarse de forma
más costo – efectiva con tecnología de computadoras
con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan técnicas que han existido por lo menos desde hace
10 años, pero que sólo han sido implementadas
recientemente como herramientas maduras, confiables, entendibles
que consistentemente son más performantes que
métodos estadísticos clásicos.

En la evolución desde los datos de negocios a
información de negocios, cada nuevo paso se basa en el
previo. Por ejemplo, el acceso a datos dinámicos es
crítico para las aplicaciones de navegación de
datos (drill through applications), y la habilidad para almacenar
grandes bases de datos es crítica para Data
Mining.

Los componentes esenciales de la tecnología de
Data Mining han estado bajo desarrollo por décadas, en
áreas de investigación como estadísticas,
inteligencia artificial y aprendizaje de máquinas. Hoy, la
madurez de estas técnicas, junto con los motores de bases
de datos relacionales de alta performance, hicieron que estas
tecnologías fueran prácticas para los entornos de
data warehouse actuales.

Proceso del Data
Mining

Monografias.com

La técnica usada para realizar estas
hazañas en Data Mining se llama Modelado. Modelado es
simplemente el acto de construir un modelo en una
situación donde usted conoce la respuesta y luego la
aplica en otra situación de la cual desconoce la
respuesta. Por ejemplo, si busca un galeón español
hundido en los mares lo primero que podría hacer es
investigar otros tesoros españoles que ya fueron
encontrados en el pasado. Notaría que esos barcos
frecuentemente fueron encontrados fuera de las costas de Bermuda
y que hay ciertas características respecto de las
corrientes oceánicas y ciertas rutas que probablemente
tomará el capitán del barco en esa época.
Usted nota esas similitudes y arma un modelo que incluye las
características comunes a todos los sitios de estos
tesoros hundidos. Con estos modelos en mano sale a buscar el
tesoro donde el modelo indica que en el pasado hubo más
probabilidad de darse una situación similar. Con un poco
de esperanza, si tiene un buen modelo, probablemente
encontrará el tesoro.

Este acto de construcción de un modelo es algo
que la gente ha estado haciendo desde hace mucho tiempo,
seguramente desde antes del auge de las computadoras y de la
tecnología de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente
construye modelos. Las computadoras son cargadas con mucha
información acerca de una variedad de situaciones donde
una respuesta es conocida y luego el software de Data Mining en
la computadora debe correr a través de los datos y
distinguir las características de los datos que
llevarán al modelo. Una vez que el modelo se
construyó, puede ser usado en situaciones similares donde
usted no conoce la respuesta. Si alguien le dice que tiene un
modelo que puede predecir el uso de los clientes,
¿Cómo puede saber si es realmente un buen modelo?
La primera cosa que puede probar es pedirle que aplique el modelo
a su base de clientes – donde usted ya conoce la respuesta. Con
Data Mining, la mejor manera para realizar esto es dejando de
lado ciertos datos para aislarlos del proceso de Data Mining. Una
vez que el proceso está completo, los resultados pueden
ser testeados contra los datos excluidos para confirmar la
validez del modelo. Si el modelo funciona, las observaciones
deben mantenerse para los datos excluidos.

Monografias.com

Herramientas

Las herramientas Mining usan algunas de las
técnicas de computación más avanzadas
como:

Redes neurales
Detección de desviación
Modelamiento predictivo
Programación genética

Sirven para generar modelos y asociaciones, el Mining es
un dato-conducido, no una aplicación-conducida. Algunas de
las herramientas son: * Predictive Models Markup Language o PMML
PMML describe modelos estadísticos y de data mining en XML
(Extensible Markup Language). XML es el formato universal para
los documentos estructurados y los datos sobre Internet
diseñado por W3C group (http://www.w3c.org).

* El Intelligent Miner de IBM para AIX Soporta
sofisticadas técnicas mining, así como las
funciones de preparación de los datos para extraer
información desde bases de datos Oracle o Sybase y
cargarlos en DB2 para mining. Con su opción Data Mine para
el motor Red Brick Warehouse 5.0, Red Brick integra la
funcionalidad de un data mining y la arquitectura de
almacenamiento. * Darwin de Thinking Machines Herramientas de
visualización de datos en MDDB de SAS Institute, SGI
MineSet y Focus 6 Serie de Visualización y Análisis
de Information Builders.

* Microsoft Commerce Server 2002. Enterprise Edition Es
la plataforma de Microsoft .NET Enterprise Servers para implantar
rápidamente negocios en línea de nueva
generación.

* Spss Data Mining Técnicas Fases de un Proyecto
de Minería de Datos:Los pasos a seguir para la
realización de un proyecto de minería de datos son
siempre los mismos, independientemente de la técnica
específica de extracción de conocimiento
usada.

El proceso de minería de datos pasa por las
siguientes fases: 1.-Filtradodedatos 2.- Selección de
Variables3.- Extracción de Conocimiento4.-
Interpretación y Evaluación

1.- Filtrado de datos

El formato de los datos contenidos en la fuente de datos
nunca es el idóneo y la mayoría de las veces no es
posible utilizar ningún algoritmo de minería.
Mediante el preprocesado, se filtran los datos (se eliminan
valores incorrectos, no válidos, desconocidos… ), se
obtienen muestras de los mismos (mayor velocidad de respuesta del
proceso), o se reduce el número de valores posibles
(mediante redondeo, clustering,…).

Monografias.com

2.- Selección de variables

Aún después de haber sido preprocesados,
se sigue teniendo una cantidad ingente de datos. La
selección de características reduce el
tamaño de los datos, eligiendo las variables más
influyentes en el problema, sin apenas sacrificar la calidad del
modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de
características son dos: – Los basados en la
elección de los mejores atributos del problema – Los que
buscan variables independientes mediante tests de sensibilidad,
algoritmos de distancia o heurísticos.

También existen dos tipos de algoritmos de
Selección de Características, wrapper o de
envoltura y filter o de filtro. Los primeros utilizan un
algoritmo de aprendizaje, mientras que los segundos lo hacen de
medidas estadísticas o funciones
heurísticas.

3.- Extracción de Conocimiento

Mediante una técnica se obtiene un modelo de
conocimiento, que representa patrones de comportamiento
observados en los valores de las variables del problema o
relaciones de asociación entre dichas variables.
También pueden usarse varias técnicas a la vez para
generar distintos modelos.

4.- Interpretación y evaluación

Finalmente se procede a su validación,
comprobando que las conclusiones son válidas y
satisfactorias. En el caso de haber obtenido varios modelos
mediante el uso de distintas técnicas, se deben comparar
los modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, se
alterará alguno de los procesos anteriores en busca de
nuevos modelos.

Monografias.com

El Alcance de
Data Mining

El nombre de Data Mining deriva de las similitudes entre
buscar valiosa información de negocios en grandes bases de
datos – por ej.: encontrar información de la venta de un
producto entre grandes montos de Gigabytes almacenados – y minar
una montaña para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de
material, o investigar inteligentemente hasta encontrar
exactamente donde residen los valores. Dadas bases de datos de
suficiente tamaño y calidad, la tecnología de Data
Mining puede generar nuevas oportunidades de negocios al proveer
estas capacidades:

Predicción automatizada de tendencias y
comportamientos. Data Mining automatiza el proceso de
encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un
intenso análisis manual, ahora pueden ser contestadas
directa y rápidamente desde los datos. Un
típico ejemplo de problema predecible es el marketing
apuntado a objetivos (targeted marketing). Data Mining usa
datos en mailing promocionales anteriores para identificar
posibles objetivos para maximizar los resultados de la
inversión en futuros mailing. Otros problemas
predecibles incluyen pronósticos de problemas
financieros futuros y otras formas de incumplimiento, e
identificar segmentos de población que probablemente
respondan similarmente a eventos dados.

* Descubrimiento automatizado de modelos previamente
desconocidos. Las herramientas de Data Mining barren las bases de
datos e identifican modelos previamente escondidos en un
sólo paso. Otros problemas de descubrimiento de modelos
incluye detectar transacciones fraudulentas de tarjetas de
créditos e identificar datos anormales que pueden
representar errores de tipeado en la carga de datos.

Las técnicas de Data Mining pueden redituar los
beneficios de automatización en las plataformas de
hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se
actualicen y nuevos productos sean desarrollados. Cuando las
herramientas de Data Mining son implementadas en sistemas de
procesamiento paralelo de alta performance, pueden analizar bases
de datos masivas en minutos. Procesamiento más
rápido significa que los usuarios pueden
automáticamente experimentar con más modelos para
entender datos complejos. Alta velocidad hace que sea
práctico para los usuarios analizar inmensas cantidades de
datos. Grandes bases de datos, a su vez, producen mejores
predicciones.

Las bases de datos pueden ser grandes tanto en
profundidad como en ancho:

Más columnas. Los analistas muchas veces
deben limitar el número de variables a examinar cuando
realizan análisis manuales debido a limitaciones de
tiempo. Sin embargo, variables que son descartadas porque
parecen sin importancia pueden proveer información
acerca de modelos desconocidos. Un Data Mining de alto
rendimiento permite a los usuarios explorar toda la base de
datos, sin preseleccionar un subconjunto de
variables.
Más filas. Muestras mayores producen menos
errores de estimación y desvíos, y permite a
los usuarios hacer inferencias acerca de pequeños pero
importantes segmentos de población

Las técnicas más comúnmente
usadas en Data Mining son:

Redes neuronales artificiales: modelos predecible
no-lineales que aprenden a través del entrenamiento y
semejan la estructura de una red neuronal
biológica.
Arboles de decisión: estructuras de forma de
árbol que representan conjuntos de decisiones. Estas
decisiones generan reglas para la clasificación de un
conjunto de datos. Métodos específicos de
árboles de decisión incluyen Arboles de
Clasificación y Regresión (CART: Classification
And Regression Tree) y Detección de Interacción
Automática de Chi Cuadrado (CHAI: Chi Square Automatic
Interaction Detection)
Algoritmos genéticos: técnicas de
optimización que usan procesos tales como
combinaciones genéticas, mutaciones y selección
natural en un diseño basado en los conceptos de
evolución.
Método del vecino más cercano: una
técnica que clasifica cada registro en un conjunto de
datos basado en una combinación de las clases del/de
los k registro (s) más similar/es a él en un
conjunto de datos históricos (donde k 1). Algunas
veces se llama la técnica del vecino( k-más
cercano.
Regla de inducción: la extracción de
reglas if-then de datos basados en significado
estadístico.

Muchas de estas tecnologías han estado en uso por
más de una década en herramientas de
análisis especializadas que trabajan con volúmenes
de datos relativamente pequeños. Estas capacidades
están ahora evolucionando para integrarse directamente con
herramientas OLAP y de Data Warehousing.

¿Cómo Trabaja el Data
Mining?

¿Cuán exactamente es capaz Data Mining de
decirle cosas importantes que usted desconoce o que van a pasar?
La técnica usada para realizar estas hazañas en
Data Mining se llama Modelado. Modelado es simplemente el acto de
construir un modelo en una situación donde usted conoce la
respuesta y luego la aplica en otra situación de la cual
desconoce la respuesta. Por ejemplo, si busca un galeón
español hundido en los mares lo primero que podría
hacer es investigar otros tesoros españoles que ya fueron
encontrados en el pasado. Notaría que esos barcos
frecuentemente fueron encontrados fuera de las costas de Bermuda
y que hay ciertas características respecto de las
corrientes oceánicas y ciertas rutas que probablemente
tomara el capitán del barco en esa época. Usted
nota esas similitudes y arma un modelo que incluye las
características comunes a todos los sitios de estos
tesoros hundidos. Con estos modelos en mano sale a buscar el
tesoro donde el modelo indica que en el pasado hubo más
probabilidad de darse una situación similar. Con un poco
de esperanza, si tiene un buen modelo, probablemente
encontrará el tesoro.

Si alguien le dice que tiene un modelo que puede
predecir el uso de los clientes, ¿Cómo puede saber
si es realmente un buen modelo? La primera cosa que puede probar
es pedirle que aplique el modelo a su base de clientes – donde
usted ya conoce la respuesta. Con Data Mining, la mejor manera
para realizar esto es dejando de lado ciertos datos para
aislarlos del proceso de Data Mining. Una vez que el proceso
está completo, los resultados pueden ser testeados contra
los datos excluidos para confirmar la validez del modelo. Si el
modelo funciona, las observaciones deben mantenerse para los
datos excluidos.

Una arquitectura
para Data Mining

Para aplicar mejor estas técnicas avanzadas,
éstas deben estar totalmente integradas con el data
warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias
herramientas de Data Mining actualmente operan fuera del
warehouse, requiriendo pasos extra para extraer, importar y
analizar los datos. Además, cuando nuevos conceptos
requieren implementación operacional, la
integración con el warehouse simplifica la
aplicación de los resultados desde Data Mining. El Data
warehouse analítico resultante puede ser aplicado para
mejorar procesos de negocios en toda la organización, en
áreas tales como manejo de campañas promocionales,
detección de fraudes, lanzamiento de nuevos productos,
etc.

El punto de inicio ideal es un data warehouse que
contenga una combinación de datos de seguimiento interno
de todos los clientes junto con datos externos de mercado acerca
de la actividad de los competidores. Información
histórica sobre potenciales clientes también provee
una excelente base para prospecting. Este warehouse puede ser
implementado en una variedad de sistemas de bases relacionales y
debe ser optimizado para un acceso a los datos flexible y
rápido.

Un server multidimensional OLAP permite que un modelo de
negocios más sofisticado pueda ser aplicado cuando se
navega por el data warehouse. Las estructuras multidimensionales
permiten que el usuario analice los datos de acuerdo a como
quiera mirar el negocio – resumido por línea de producto,
u otras perspectivas claves para su negocio. El server de Data
Mining debe estar integrado con el data warehouse y el server
OLAP para insertar el análisis de negocios directamente en
esta infraestructura. Un avanzado, metadata centrado en procesos
define los objetivos del Data Mining para resultados
específicos tales como manejos de campaña,
prospecting, y optimización de promociones. La
integración con el data warehouse permite que decisiones
operacionales sean implementadas directamente y monitoreadas. A
medida que el data warehouse crece con nuevas decisiones y
resultados, la organización puede "minar" las mejores
prácticas y aplicarlas en futuras decisiones.

Este diseño representa una transferencia
fundamental desde los sistemas de soporte de decisión
convencionales. Más que simplemente proveer datos a los
usuarios finales a través de software de consultas y
reportes, el server de Análisis Avanzado aplica los
modelos de negocios del usuario directamente al warehouse y
devuelve un análisis proactivo de la información
más relevante. Estos resultados mejoran los metadatos en
el server OLAP proveyendo una estrato de metadatos que representa
una vista fraccionada de los datos. Generadores de reportes,
visualizadores y otras herramientas de análisis pueden ser
aplicadas para planificar futuras acciones y confirmar el impacto
de esos planes.

UNIVERSIDAD NACIONAL EXPERIMENTAL
POLITÉCNICA

"ANTONIO JOSE DE
SUCRE"

VICE-RECTORADO PUERTO ORDAZ DEPARTAMENTO DE
INGENIERÍA INDUSTRIAL

CÁTEDRA: SISTEMAS DE
INFORMACIÓN

Ciudad Guayana, Febrero de 2010

Profesor: Msc.ing. Iván Turmero .

Integrante: Antut Gregorio Camacho, Maria
Haranki, Jorge Lomelli Almary Medina,
Neyla Perez Maholys.

Autor:

Iván José Turmero Astros

Minería de datos

Introducción

Los Fundamentos del Data Mining

Proceso del Data Mining

El Alcance de Data Mining

¿Cómo Trabaja el Data Mining?

Una arquitectura para Data Mining

Los Fundamentos
del Data Mining

Proceso del Data
Mining

El Alcance de
Data Mining

¿Cómo Trabaja el Data
Mining?

Una arquitectura
para Data Mining