Data Mining

Enviado por IVÁN JOSÉ TURMERO ASTROS

Partes: 1, 2

Introducción

Data Mining (DM), la extracción de
información oculta y predecible de grandes bases de datos,
es una poderosa tecnología nueva con gran potencial para
ayudar a las compañías a concentrarse en la
información más importante de sus Bases de
Información Sin embargo, no existe una única
definición del término Data Mining. Se puede decir
que DM se refiere a un conjunto de métodos
estadísticos que proporcionan información
(correlaciones o patrones) cuando se dispone de muchos datos (de
aquí viene el nombre Minería de Datos). Esta idea
de DM lleva a la siguiente estructura de conocimiento:

Datos + Estadística = Información El
símbolo = tiene el siguiente sentido: los datos
están bien recogidos y la estadística bien
aplicada.

Según algunos autores, el Data Mining es aquella
parte de la estadística (principalmente estadística
no paramétrica) que se usa para problemas que se presentan
actualmente en Análisis de Datos. Los problemas actuales
se diferencian de los clásicos en que el número de
datos a analizar es mucho mayor y, como consecuencia, las
técnicas estadísticas clásicas no pueden ser
aplicadas.

Generalmente, el Data Mining es el proceso de analizar
datos desde diferentes perspectivas con el objetivo de resumir
los datos en segmentos de información útiles. Esta
información que puede ser usada para incrementar
réditos o beneficios, reducir costos, etc. El DM permite a
los usuarios analizar datos desde diferentes dimensiones o
ángulos, categorizándolos y resumiendo las
relaciones identificadas.

Con estas técnicas es posible, a veces, hacer
evidente las relaciones ocultas entre sucesos. Un ejemplo simple
sería averiguar la relación entre la compra de
pañales y de cerveza el sábado por la tarde en los
supermercados. Este ejemplo ilustra muy bien la necesidad de
conocer el campo de trabajo para aplicar el Data Mining:
sólo un especialista que conozca a su clientela es capaz
de interpretar una correlación bruta que permita realizar
el retrato típico de una pareja haciendo sus compras.
Encontrar las relaciones causales que llevan a correlaciones como
la anterior puede ser más rápido y sencillo con el
Data Mining.

Además el DM permite trabajar con grandes
cantidades de observaciones (varios millones) sin ningún
inconveniente. También permite tratar una gran cantidad de
variables predictivas (hasta varios millares). Esto último
es de gran utilidad para seleccionar variables (determinar las
más útiles dentro de una gran masa).

Data
Mining

La minería de datos (DM, Data Mining)
consiste en la extracción no trivial de información
que reside de manera implícita en los datos. Dicha
información era previamente desconocida y podrá
resultar útil para algún proceso. En otras
palabras, la minería de datos prepara, sondea y explora
los datos para sacar la información oculta en
ellos.

Bajo el nombre de minería de datos se engloba
todo un conjunto de técnicas encaminadas a la
extracción de conocimiento procesable, implícito en
las bases de datos. Está fuertemente ligado con la
supervisión de procesos industriales ya que resulta muy
útil para aprovechar los datos almacenados en las bases de
datos.

Las bases de la minería de datos se encuentran en
la inteligencia artificial y en el análisis
estadístico. Mediante los modelos extraídos
utilizando técnicas de minería de datos se aborda
la solución a problemas de predicción,
clasificación y segmentación.

Las herramientas de Data Mining predicen futuras
tendencias y comportamientos, permitiendo en los negocios tomar
decisiones proactivas y conducidas por un conocimiento acabado de
la información.

Los análisis prospectivos automatizados ofrecidos
por un producto así van más allá de los
eventos pasados provistos por herramientas retrospectivas
típicas de sistemas de soporte de decisión. Las
herramientas de Data Mining pueden responder a preguntas de
negocios que tradicionalmente consumen demasiado tiempo para
poder ser resueltas y a los cuales los usuarios de esta
información casi no están dispuestos a aceptar.
Estas herramientas exploran las bases de datos en busca de
patrones ocultos, encontrando información predecible que
un experto no puede llegar a encontrar porque se encuentra fuera
de sus expectativas.

Muchas compañías ya colectan y refinan
cantidades masivas de datos. Las técnicas de Data Mining
pueden ser implementadas rápidamente en plataformas ya
existentes de software y hardware para acrecentar el valor de las
fuentes de información existentes y pueden ser integradas
con nuevos productos y sistemas pues son traídas en
línea (on-line). Una vez que las herramientas de Data
Mining fueron implementadas en computadoras cliente servidor de
alta performance o de procesamiento paralelo, pueden analizar
bases de datos masivas para brindar respuesta a preguntas tales
como, "¿Cuáles clientes tienen más
probabilidad de responder al próximo mailing promocional,
y por qué? y presentar los resultados en formas de tablas,
con gráficos, reportes, texto, hipertexto, etc.

Los Fundamentos
del Data Mining

Las técnicas de Data Mining son el resultado de
un largo proceso de investigación y desarrollo de
productos. Esta evolución comenzó cuando los datos
de negocios fueron almacenados por primera vez en computadoras, y
continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de evolución
más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación en la comunidad de
negocios porque está soportado por tres tecnologías
que ya están suficientemente maduras:

Recolección masiva de datos
Potentes computadoras con
multiprocesadores
Algoritmos de Data Mining

Las bases de datos comerciales están creciendo a
un ritmo sin precedentes. Un reciente estudio del META GROUP
sobre los proyectos de Data Warehouse encontró que el 19%
de los que contestaron están por encima del nivel de los
50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo
trimestre de 1997. En algunas industrias, tales como ventas al
por menor (retail), estos números pueden ser aún
mayores. MCI Telecommunications Corp. cuenta con una base de
datos de 3 terabytes + 1 terabyte de índices y overhead
corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
computacionales mejorados puede ahora alcanzarse de forma
más costo – efectiva con tecnología de computadoras
con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan técnicas que han existido por lo menos desde hace
10 años, pero que sólo han sido implementadas
recientemente como herramientas maduras, confiables, entendibles
que consistentemente son más performantes que
métodos estadísticos clásicos.

En la evolución desde los datos de negocios a
información de negocios, cada nuevo paso se basa en el
previo. Por ejemplo, el acceso a datos dinámicos es
crítico para las aplicaciones de navegación de
datos, y la habilidad para almacenar grandes bases de datos es
crítica para Data Mining.

Los componentes esenciales de la tecnología de
Data Mining han estado bajo desarrollo por décadas, en
áreas de investigación como estadísticas,
inteligencia artificial y aprendizaje de máquinas. Hoy, la
madurez de estas técnicas, junto con los motores de bases
de datos relacionales de alta performance, hicieron que estas
tecnologías fueran prácticas para los entornos de
data warehouse actuales.

¿Cómo Trabaja el Data
Mining?

¿Cuán exactamente es capaz Data Mining de
decirle cosas importantes que usted desconoce o que van a pasar?
La técnica usada para realizar estas hazañas en
Data Mining se llama Modelado. Modelado es simplemente
el acto de construir un modelo en una situación donde
usted conoce la respuesta y luego la aplica en otra
situación de la cual desconoce la respuesta. Por ejemplo,
si busca un galeón español hundido en los mares lo
primero que podría hacer es investigar otros tesoros
españoles que ya fueron encontrados en el pasado.
Notaría que esos barcos frecuentemente fueron encontrados
fuera de las costas de Bermuda y que hay ciertas
características respecto de las corrientes
oceánicas y ciertas rutas que probablemente tomara el
capitán del barco en esa época. Usted nota esas
similitudes y arma un modelo que incluye las
características comunes a todos los sitios de estos
tesoros hundidos. Con estos modelos en mano sale a buscar el
tesoro donde el modelo indica que en el pasado hubo más
probabilidad de darse una situación similar. Con un poco
de esperanza, si tiene un buen modelo, probablemente
encontrará el tesoro.

Este acto de construcción de un modelo es algo
que la gente ha estado haciendo desde hace mucho tiempo,
seguramente desde antes del auge de las computadoras y de la
tecnología de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente
construye modelos. Las computadoras son cargadas con mucha
información acerca de una variedad de situaciones donde
una respuesta es conocida y luego el software de Data Mining en
la computadora debe correr a través de los datos y
distinguir las características de los datos que
llevarán al modelo. Una vez que el modelo se
construyó, puede ser usado en situaciones similares donde
usted no conoce la respuesta.

Si alguien le dice que tiene un modelo que puede
predecir el uso de los clientes, ¿Cómo puede saber
si es realmente un buen modelo? La primera cosa que puede probar
es pedirle que aplique el modelo a su base de clientes – donde
usted ya conoce la respuesta. Con Data Mining, la mejor manera
para realizar esto es dejando de lado ciertos datos para
aislarlos del proceso de Data Mining. Una vez que el proceso
está completo, los resultados pueden ser testeados contra
los datos excluidos para confirmar la validez del modelo. Si el
modelo funciona, las observaciones deben mantenerse para los
datos excluidos.

Proceso de Data
Mining

Un proceso típico de minería de datos
consta de los siguientes pasos generales:

Selección del conjunto de datos, tanto
en lo que se refiere a las variables dependientes, como a las
variables objetivo, como posiblemente al muestreo de los
registros disponibles.
Análisis de las propiedades de los
datos, en especial los histogramas, diagramas de
dispersión, presencia de valores atípicos y
ausencia de datos (valores nulos).
Transformación del conjunto de datos de
entrada, se realizará de diversas formas en
función del análisis previo, con el objetivo de
prepararlo para aplicar la técnica de minería
de datos que mejor se adapte a los datos y al
problema.
Seleccionar y aplicar la técnica de
minería de datos, se construye el modelo
predictivo, de clasificación o
segmentación.
Extracción de conocimiento, mediante
una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las variables del
problema o relaciones de asociación entre dichas
variables. También pueden usarse varias
técnicas a la vez para generar distintos modelos,
aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.
Interpretación y evaluación de
datos, una vez obtenido el modelo, se debe proceder a su
validación comprobando que las conclusiones que arroja
son válidas y suficientemente satisfactorias. En el
caso de haber obtenido varios modelos mediante el uso de
distintas técnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al problema. Si ninguno de
los modelos alcanza los resultados esperados, debe alterarse
alguno de los pasos anteriores para generar nuevos
modelos.

Si el modelo final no superara esta evaluación el
proceso se podría repetir desde el principio o, si el
experto lo considera oportuno, a partir de cualquiera de
los pasos anteriores. Esta retroalimentación se
podrá repetir cuantas veces se considere necesario hasta
obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable
(proporciona salidas adecuadas y/o con márgenes de error
admisibles) éste ya está listo para su
explotación. Los modelos obtenidos por técnicas de
minería de datos se aplican incorporándolos en los
sistemas de análisis de información de las
organizaciones, e incluso, en los sistemas transaccionales. En
este sentido cabe destacar los esfuerzos del Data Mining Group,
que está estandarizando el lenguaje PMML
(Predictive Model Markup Language), de manera que los modelos de
minería de datos sean interoperables en distintas
plataformas, con independencia del sistema con el que han sido
construidos. Los principales fabricantes de sistemas de bases de
datos y programas de análisis de la información
hacen uso de este estándar.

Tradicionalmente, las técnicas de minería
de datos se aplicaban sobre información contenida en
almacenes de datos. De hecho, muchas grandes empresas e
instituciones han creado y alimentan bases de datos especialmente
diseñadas para proyectos de minería de datos en las
que centralizan información potencialmente útil de
todas sus áreas de negocio. No obstante, actualmente
está cobrando una importancia cada vez mayor la
minería de datos desestructurados como información
contenida en ficheros de texto, en Internet, etc.

Protocolo de un
Proyecto de Data Mining

Un proyecto de minería de datos tiene varias
fases necesarias que son, esencialmente:

Comprensión del negocio y del problema que se
quiere resolver.
Determinación, obtención y limpieza de
los datos necesarios.
Creación de modelos
matemáticos.
Validación, comunicación, etc. de los
resultados obtenidos.
Integración, si procede, de los resultados en
un sistema transaccional o similar.

La relación entre todas estas fases sólo
es lineal sobre el papel. En realidad, es mucho más
compleja y esconde toda una jerarquía de subfases. A
través de la experiencia acumulada en proyectos de
minería de datos se han ido desarrollando
metodologías que permiten gestionar esta complejidad de
una manera más o menos uniforme.

Técnicas
de Data Mining

Como ya se ha comentado, las técnicas de la
minería de datos provienen de la Inteligencia artificial y
de la estadística, dichas técnicas, no son
más que algoritmos, más o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos
resultados.

Las técnicas más representativas
son:

Redes neuronales.- Son un paradigma de
aprendizaje y procesamiento automático inspirado en la
forma en que funciona el sistema nervioso de los animales. Se
trata de un sistema de interconexión de neuronas en
una red que colabora para producir un estímulo de
salida. Algunos ejemplos de red neuronal son:

El Perceptrón.
El Perceptrón multicapa.
Los Mapas Autoorganizados, también conocidos
como redes de Kohonen.

Regresión lineal.- Es la más
utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde
puedan relacionarse más de 2 variables.
Árboles de decisión.- Un
árbol de decisión es un modelo de
predicción utilizado en el ámbito de la
inteligencia artificial, dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy
similares a los sistemas de predicción basados en
reglas, que sirven para representar y categorizar una serie
de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos:

Algoritmo ID3.
Algoritmo C4.5.

Modelos estadísticos.- Es una
expresión simbólica en forma de igualdad o
ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los
diferentes factores que modifican la variable de
respuesta.
Agrupamiento o Clustering.- Es un
procedimiento de agrupación de una serie de vectores
según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma
que estén más cercanos aquellos que tengan
características comunes. Ejemplos:

Algoritmo K-means.
Algoritmo K-medoids.

Según el objetivo del análisis de los
datos, los algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un
dato (o un conjunto de ellos) desconocido a priori, a partir
de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del
conocimiento): se descubren patrones y tendencias en los
datos.

Alcance del Data Mining El nombre de Data
Mining deriva de las similitudes entre buscar valiosa
información de negocios en grandes bases de datos por
ejemplo: encontrar información de la venta de un producto
entre grandes montos de Gigabytes almacenados – y minar una
montaña para encontrar una veta de metales valiosos. Ambos
procesos requieren examinar una inmensa cantidad de material, o
investigar inteligentemente hasta encontrar exactamente donde
residen los valores. Dadas bases de datos de suficiente
tamaño y calidad, la tecnología de Data Mining
puede generar nuevas oportunidades de negocios al proveer estas
capacidades:

Predicción automatizada de tendencias y
comportamientos. Data Mining automatiza el proceso de
encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un
intenso análisis manual, ahora pueden ser contestadas
directa y rápidamente desde los datos. Un
típico ejemplo de problema predecible es el marketing
apuntado a objetivos (targeted marketing). Data Mining usa
datos en mailing promocionales anteriores para identificar
posibles objetivos para maximizar los resultados de la
inversión en futuros mailing. Otros problemas
predecibles incluyen pronósticos de problemas
financieros futuros y otras formas de incumplimiento, e
identificar segmentos de población que probablemente
respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos
previamente desconocidos. Las herramientas de Data Mining
barren las bases de datos e identifican modelos previamente
escondidos en un sólo paso. Otros problemas de
descubrimiento de modelos incluye detectar transacciones
fraudulentas de tarjetas de créditos e identificar
datos anormales que pueden representar errores de
tipiado en la carga de datos.

Las técnicas de Data Mining pueden redituar los
beneficios de automatización en las plataformas de
hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se
actualicen y nuevos productos sean desarrollados. Cuando las
herramientas de Data Mining son implementadas en sistemas de
procesamiento paralelo de alta performance, pueden analizar bases
de datos masivas en minutos. Procesamiento más
rápido significa que los usuarios pueden
automáticamente experimentar con más
modelos para entender datos complejos. Alta velocidad
hace que sea práctico para los usuarios analizar inmensas
cantidades de datos. Grandes bases de datos, a su vez, producen
mejores predicciones.

Las bases de datos pueden ser grandes tanto en
profundidad como en ancho:

Más columnas. Los analistas muchas
veces deben limitar el número de variables a examinar
cuando realizan análisis manuales debido a
limitaciones de tiempo. Sin embargo, variables que son
descartadas porque parecen sin importancia pueden proveer
información acerca de modelos desconocidos. Un Data
Mining de alto rendimiento permite a los usuarios explorar
toda la base de datos, sin preseleccionar un subconjunto de
variables.
Más filas. Muestras mayores producen
menos errores de estimación y desvíos, y
permite a los usuarios hacer inferencias acerca de
pequeños pero importantes segmentos de
población.

Las técnicas más comúnmente usadas
en Data Mining son:

Redes neuronales artificiales: modelos
predecibles no-lineales que aprenden a través del
entrenamiento y semejan la estructura de una red neuronal
biológica.
Árboles de decisión:
estructuras de forma de árbol que representan
conjuntos de decisiones. Estas decisiones generan reglas para
la clasificación de un conjunto de datos.
Métodos específicos de árboles de
decisión incluyen Árboles de
Clasificación y Regresión (CART: Classification
And Regression Tree) y Detección de Interacción
Automática de Chi Cuadrado (CHAI: Chi Square Automatic
Interaction Detection)
Algoritmos genéticos: técnicas
de optimización que usan procesos tales como
combinaciones genéticas, mutaciones y selección
natural en un diseño basado en los conceptos de
evolución.
Método del vecino más cercano:
una técnica que clasifica cada registro en un conjunto
de datos basado en una combinación de las clases
del/de los k registro (s) más similar/es a
él en un conjunto de datos históricos (donde
k 1). Algunas veces se llama la técnica del
vecino( k-más cercano.
Regla de inducción: la
extracción de reglas if-then de datos basados en
significado estadístico.

Muchas de estas tecnologías han estado en uso por
más de una década en herramientas de
análisis especializadas que trabajan con volúmenes
de datos relativamente pequeños. Estas capacidades
están ahora evolucionando para integrarse directamente con
herramientas OLAP y de Data Warehousing.

Arquitectura para
Data Mining

Para aplicar mejor estas técnicas avanzadas,
éstas deben estar totalmente integradas con el data
warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias
herramientas de Data Mining actualmente operan fuera del
warehouse, requiriendo pasos extra para extraer, importar y
analizar los datos. Además, cuando nuevos conceptos
requieren implementación operacional, la
integración con el warehouse simplifica la
aplicación de los resultados desde Data Mining. El Data
warehouse analítico resultante puede ser aplicado para
mejorar procesos de negocios en toda la organización, en
áreas tales como manejo de campañas promocionales,
detección de fraudes, lanzamiento de nuevos productos,
etc.

El punto de inicio ideal es un data warehouse que
contenga una combinación de datos de seguimiento interno
de todos los clientes junto con datos externos de mercado acerca
de la actividad de los competidores. Información
histórica sobre potenciales clientes también provee
una excelente base para prospecting. Este warehouse puede ser
implementado en una variedad de sistemas de bases relacionales y
debe ser optimizado para un acceso a los datos flexible y
rápido.

Un servidor multidimensional OLAP permite que un modelo
de negocios más sofisticado pueda ser aplicado cuando se
navega por el data warehouse. Las estructuras multidimensionales
permiten que el usuario analice los datos de acuerdo a como
quiera mirar el negocio – resumido por línea de producto,
u otras perspectivas claves para su negocio. El server de Data
Mining debe estar integrado con el data warehouse y el server
OLAP para insertar el análisis de negocios directamente en
esta infraestructura. Un avanzado, metadata centrado en procesos
define los objetivos del Data Mining para resultados
específicos tales como manejos de campaña,
prospecting, y optimización de promociones. La
integración con el data warehouse permite que decisiones
operacionales sean implementadas directamente y monitoreadas. A
medida que el data warehouse crece con nuevas decisiones y
resultados, la organización puede "minar" las mejores
prácticas y aplicarlas en futuras decisiones.

Este diseño representa una transferencia
fundamental desde los sistemas de soporte de decisión
convencionales. Más que simplemente proveer datos a los
usuarios finales a través de software de consultas y
reportes, el server de Análisis Avanzado aplica los
modelos de negocios del usuario directamente al warehouse y
devuelve un análisis proactivo de la información
más relevante. Estos resultados mejoran los metadatos en
el server OLAP proveyendo una estrato de metadatos que representa
una vista fraccionada de los datos. Generadores de reportes,
visualizadores y otras herramientas de análisis pueden ser
aplicadas para planificar futuras acciones y confirmar el impacto
de esos planes.

Ejemplos de Uso
de la Data Mining

Negocios La minería de datos puede contribuir
significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar
de contactar con el cliente de forma indiscriminada a
través de un centro de llamadas o enviando cartas,
sólo se contactará con aquellos que se perciba que
tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción.

Por lo general, las empresas que emplean minería
de datos ven rápidamente el retorno de la
inversión, pero también reconocen que el
número de modelos predictivos desarrollados puede crecer
muy rápidamente.

En lugar de crear modelos para predecir qué
clientes pueden cambiar, la empresa podría construir
modelos separados para cada región y/o para cada tipo de
cliente. También puede querer determinar qué
clientes van a ser rentables durante una ventana de tiempo y
sólo enviar las ofertas a las personas que es probable que
sean rentables. Para mantener esta cantidad de modelos, es
necesario gestionar las versiones de cada modelo y pasar a una
minería de datos lo más automatizada
posible.

Hábitos de Compra en
Supermercados

El ejemplo clásico de aplicación de la
minería de datos tiene que ver con la detección de
hábitos de compra en supermercados. Un estudio muy citado
detectó que los viernes había una cantidad
inusualmente elevada de clientes que adquirían a la vez
pañales y cerveza. Se detectó que se debía a
que dicho día solían acudir al supermercado padres
jóvenes cuya perspectiva para el fin de semana
consistía en quedarse en casa cuidando de su hijo y viendo
la televisión con una cerveza en la mano. El supermercado
pudo incrementar sus ventas de cerveza colocándolas
próximas a los pañales para fomentar las ventas
compulsivas.

Patrones de fuga

Un ejemplo más habitual es el de la
detección de patrones de fuga. En muchas industrias como
la banca, las telecomunicaciones, etc. existe un comprensible
interés en detectar cuanto antes aquellos clientes que
puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes y en
función de su valor se les podrían hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el
objetivo último de retenerlos. La minería de datos
ayuda a determinar qué clientes son los más
proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes
que, efectivamente, se dieron de baja en el pasado.

Fraudes

Un caso análogo es el de la detección de
transacciones de blanqueo de dinero o de fraude en el uso de
tarjetas de crédito o de servicios de telefonía
móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones
fraudulentas o ilegales suelen seguir patrones
característicos que permiten, con cierto grado de
probabilidad, distinguirlas de las legítimas y desarrollar
así mecanismos para tomar medidas rápidas frente a
ellas.

Recursos humanos

La minería de datos también puede ser
útil para los departamentos de recursos humanos en la
identificación de las características de sus
empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal,
centrándose en los esfuerzos de sus empleados y los
resultados obtenidos por éstos. Además, la ayuda
ofrecida por las aplicaciones para dirección
estratégica en una empresa se traducen en la
obtención de ventajas a nivel corporativo, tales como
mejorar el margen de beneficios o compartir objetivos; y en la
mejora de las decisiones operativas, tales como desarrollo de
planes de producción o gestión de mano de
obra.

Comportamiento en Internet

También es un área en boga el del
análisis del comportamiento de los visitantes sobre todo,
cuando son clientes potenciales en una página de Internet.
O la utilización de la información obtenida por
medios más o menos legítimos sobre ellos para
ofrecerles propaganda adaptada específicamente a su
perfil. O para, una vez que adquieren un determinado producto,
saber inmediatamente qué otro ofrecerle teniendo en cuenta
la información histórica disponible acerca de los
clientes que han comprado el primero.

Terrorismo

La minería de datos ha sido citada como el
método por el cual la unidad Able Danger del
Ejército de los EE.UU. había identificado al
líder de los atentados del 11 de septiembre de 2001,
Mohammed Atta, y a otros tres secuestradores del "11-S"
como posibles miembros de una célula de Al Qaeda que
operan en los EE.UU. más de un año antes del
ataque. Se ha sugerido que tanto la Agencia Central de
Inteligencia y sus homóloga canadiense, Servicio de
Inteligencia y Seguridad Canadiense, también han empleado
este método.

Juegos

Desde comienzos de la década de 1960, con la
disponibilidad de oráculos para determinados juegos
combinacionales, también llamados finales de juego de
tablero (por ejemplo, para las tres en raya o en finales de
ajedrez) con cualquier configuración de inicio, se ha
abierto una nueva área en la minería de datos que
consiste en la extracción de estrategias utilizadas por
personas para estos oráculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con
éxito al funcionamiento de estos oráculos. En su
lugar, la producción de patrones perspicaces se
basa en una amplia experimentación con bases de datos
sobre esos finales de juego, combinado con un estudio intensivo
de los propios finales de juego en problemas bien
diseñados y con conocimiento de la técnica (datos
previos sobre el final del juego). Ejemplos notables de
investigadores que trabajan en este campo son Berlekamp en el
juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de
ajedrez.

Ciencia e Ingeniería

En los últimos años la minería de
datos se está utilizando ampliamente en diversas
áreas relacionadas con la ciencia y la ingeniería.
Algunos ejemplos de aplicación en estos campos
son:

Genética

En el estudio de la genética humana, el objetivo
principal es entender la relación cartográfica
entre las partes y la variación individual en las
secuencias del ADN humano y la variabilidad en la susceptibilidad
a las enfermedades. En términos más llanos, se
trata de saber cómo los cambios en la secuencia de ADN de
un individuo afectan al riesgo de desarrollar enfermedades
comunes (como por ejemplo el cáncer). Esto es muy
importante para ayudar a mejorar el diagnóstico,
prevención y tratamiento de las enfermedades. La
técnica de minería de datos que se utiliza para
realizar esta tarea se conoce como "reducción de
dimensionalidad multifactorial".

Ingeniería eléctrica

En el ámbito de la ingeniería
eléctrica, las técnicas minería de datos han
sido ampliamente utilizadas para monitorizar las condiciones de
las instalaciones de alta tensión. La finalidad de esta
monitorización es obtener información valiosa sobre
el estado del aislamiento de los equipos. Para la vigilancia de
las vibraciones o el análisis de los cambios de carga en
transformadores se utilizan ciertas técnicas para
agrupación de datos (clustering) tales
como los Mapas Auto-Organizativos (SOM, Self-organizing
map). Estos mapas sirven para detectar condiciones anormales y
para estimar la naturaleza de dichas anomalías.

Análisis de gases

También se han aplicado técnicas de
minería de datos para el análisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores
eléctricos. El análisis de gases disueltos se
conoce desde hace mucho tiempo como herramienta para diagnosticar
transformadores. Los Mapas Auto-Organizativos (SOM) se
utilizan para analizar datos y determinar tendencias que
podrían pasarse por alto utilizando las técnicas
clásicas DGA.

Data Mining y
Otras Disciplinas Análogas

Suscita cierta polémica el definir las fronteras
existentes entre la minería de datos y disciplinas
análogas, como pueden serlo la estadística, la
inteligencia artificial, etc. Hay quienes sostienen que la
minería de datos no es sino estadística envuelta en
una jerga de negocios que la conviertan en un producto
vendible. Otros, en cambio, encuentran en ella una serie
de problemas y métodos específicos que la hacen
distinta de otras disciplinas.

El hecho es, que en la práctica la totalidad de
los modelos y algoritmos de uso general en minería de
datos redes neuronales, árboles de regresión y
clasificación, modelos logísticos, análisis
de componentes principales, etc. gozan de una tradición
relativamente larga en otros campos.

De la Estadística

Ciertamente, la minería de datos bebe de la
estadística, de la que toma las siguientes
técnicas:

Análisis de varianza: Mediante el cual se
evalúa la existencia de diferencias significativas
entre las medias de una o más variables continuas en
poblaciones distintos.
Regresión: define la relación entre
una o más variables y un conjunto de variables
predictoras de las primeras.
Prueba Chi-cuadrado: por medio de la cual se realiza
el contraste la hipótesis de dependencia entre
variables.
Análisis de agrupamiento o clustering:
permite la clasificación de una población de
individuos caracterizados por múltiples
atributos (binarios, cualitativos o cuantitativos) en un
número determinado de grupos, con base en las
semejanzas o diferencias de los individuos.
Análisis discriminante: permite la
clasificación de individuos en grupos que previamente
se han establecido, permite encontrar la regla de
clasificación de los elementos de estos grupos, y por
tanto una mejor identificación de cuáles son
las variables que definan la pertenencia al grupo.
Series de tiempo: permite el estudio de la
evolución de una variable a través del tiempo
para poder realizar predicciones, a partir de ese
conocimiento y bajo el supuesto de que no van a producirse
cambios estructurales.

De la Informática

De la informática toma las siguientes
técnicas:

Algoritmos genéticos: Son métodos
numéricos de optimización, en los que aquella
variable o variables que se pretenden optimizar junto con las
variables de estudio constituyen un segmento de
información. Aquellas configuraciones de las variables
de análisis que obtengan mejores valores para la
variable de respuesta, corresponderán a segmentos con
mayor capacidad reproductiva. A través de la
reproducción, los mejores segmentos perduran y su
proporción crece de generación en
generación. Se puede además introducir
elementos aleatorios para la modificación de las
variables (mutaciones). Al cabo de cierto número de
iteraciones, la población estará constituida
por buenas soluciones al problema de optimización,
pues las malas soluciones han ido descartándose,
iteración tras iteración.
Inteligencia Artificial: Mediante un sistema
informático que simula un sistema inteligente, se
procede al análisis de los datos disponibles. Entre
los sistemas de Inteligencia Artificial se
encuadrarían los Sistemas Expertos y las Redes
Neuronales.
Sistemas Expertos: Son sistemas que han sido creados
a partir de reglas prácticas extraídas del
conocimiento de expertos. Principalmente a base de
inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas
expertos, pero con mayor ventaja ante nuevas situaciones
desconocidas para el experto.
Redes neuronales: Genéricamente, son
métodos de proceso numérico en paralelo, en el
que las variables interactúan mediante
transformaciones lineales o no lineales, hasta obtener unas
salidas. Estas salidas se contrastan con los que
tenían que haber salido, basándose en unos
datos de prueba, dando lugar a un proceso de
retroalimentación mediante el cual la red se
reconfigura, hasta obtener un modelo adecuado.

Conclusiones

Un Sistema Data Mining nos permite analizar factores de
influencia en determinados procesos, predecir o estimar variables
o comportamientos futuros, segmentar o agrupar ítems
similares, además de obtener secuencias de eventos que
provocan comportamientos específicos.

La llegada del Data Mining se considera como la
última etapa de la introducción de métodos
cuantitativos, científicos en el mundo del comercio,
industria y negocios. Desde ahora, todos los
no-estadísticos -es decir el 99,5% de nosotros pueden
construir modelos exactos de algunas de sus actividades, para
estudiarlas mejor, comprenderlas y mejorarlas.

Dentro de sus funciones tenemos:

Parametrizar la alimentación de la base de
datos por parte de los operadores y usuarios para garantizar
su confiabilidad.
Alimentar directamente la base de datos con aquella
data o información que escape del dominio del usuario
u operador para asegurar su representatividad y utilidad para
fines de análisis y mercadeo.
Coordinar el diseño de programas o
aplicaciones con el área de Informática para
preservar la compatibilidad de los sistemas y facilitar el
uso de la base de datos.
Depurar continuamente la base de datos para
garantizar su confiabilidad.
Respaldar todo registro para asegurar la
preservación de la data.
Concientizar al usuario sobre los usos y la utilidad
de la base de datos para propiciar su máximo
aprovechamiento, por él más amplio universo de
gerentes, unidades y ejecutivos, para fines de
mercadeo.
Brindar apoyo técnico al usuario, operador e
Informática respecto al manejo y mantenimiento de la
base de datos para evitar inconsistencias y
contaminación de la data.

Partes: 1, 2

Página siguiente

Data Mining

Protocolo de un Proyecto de Data Mining

Protocolo de un
Proyecto de Data Mining