Introducción Data Mining (DM), la extracción de
información oculta y predecible de grandes bases de datos,
es una poderosa tecnología nueva con gran potencial para
ayudar a las compañías a concentrarse en la
información más importante de sus Bases de
Información. Sin embargo, no existe una única
definición del término Data Mining. Se puede decir
que DM se refiere a un conjunto de métodos
estadísticos que proporcionan información cuando se
dispone de muchos datos.
Data Mining
La minería de datos consiste en la extracción no
trivial de información que reside de manera
implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para
algún proceso. En otras palabras, la minería de
datos prepara, sondea y explora los datos para sacar la
información oculta en ellos. Bajo el nombre de
minería de datos se engloba todo un conjunto de
técnicas encaminadas a la extracción de
conocimiento procesable, implícito en las bases de datos.
Está fuertemente ligado con la supervisión de
procesos industriales ya que resulta muy útil para
aprovechar los datos almacenados en las bases de datos. Data
Mining
Las técnicas de Data Mining son el resultado de un largo
proceso de investigación y desarrollo de productos. Esta
evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y
continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de evolución
más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación en la comunidad de
negocios porque está soportado por tres tecnologías
que ya están suficientemente maduras: Recolección
masiva de datos Potentes computadoras con multiprocesadores
Algoritmos de Data Mining Fundamentos de DM
¿Cuán exactamente es capaz DM de decir las cosas
importantes que se desconocen? La técnica usada para
realizar estas hazañas en Data Mining se llama Modelado.
Modelado Es simplemente el acto de construir un modelo en una
situación donde usted conoce la respuesta y luego la
aplica en otra situación de la cual desconoce la
respuesta. ¿Cómo Trabaja el Data Mining?
Un proceso típico de minería de datos consta de los
siguientes pasos generales: 1. Selección del conjunto de
datos, tanto en lo que se refiere a las variables dependientes,
como a las variables objetivo, como posiblemente al muestreo de
los registros disponibles. 2. Análisis de las propiedades
de los datos, en especial los histogramas, diagramas de
dispersión, presencia de valores atípicos y
ausencia de datos (valores nulos). Proceso de Data Mining
3. Transformación del conjunto de datos de entrada, se
realizará de diversas formas en función del
análisis previo, con el objetivo de prepararlo para
aplicar la técnica de minería de datos que mejor se
adapte a los datos y al problema. 4. Seleccionar y aplicar la
técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación. 5.
Extracción de conocimiento, mediante una técnica de
minería de datos, se obtiene un modelo de conocimiento,
que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de
asociación entre dichas variables. También pueden
usarse varias técnicas a la vez para generar distintos
modelos, aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.
6. Interpretación y evaluación de datos, una vez
obtenido el modelo, se debe proceder a su validación
comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido
varios modelos mediante el uso de distintas técnicas, se
deben comparar los modelos en busca de aquel que se ajuste mejor
al problema. Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.
Un proyecto de minería de datos tiene varias fases
necesarias que son, esencialmente: 1. Comprensión del
negocio y del problema que se quiere resolver. 2.
Determinación, obtención y limpieza de los datos
necesarios. 3. Creación de modelos matemáticos. 4.
Validación, comunicación, etc. de los resultados
obtenidos. 5. Integración, si procede, de los resultados
en un sistema transaccional o similar. Protocolo de un Proyecto
de DM
Las técnicas más representativas son: Redes
neuronales. Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema de
interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Algunos ejemplos de red
neuronal son: El Perceptrón. El Perceptrón
multicapa. Los Mapas Autoorganizados, también conocidos
como redes de Kohonen. Técnicas de Data Mining
Regresión lineal. Es la más utilizada para formar
relaciones entre datos. Rápida y eficaz pero insuficiente
en espacios multidimensionales donde puedan relacionarse
más de 2 variables. Árboles de decisión. Un
árbol de decisión es un modelo de predicción
utilizado en el ámbito de la inteligencia artificial, dada
una base de datos se construyen estos diagramas de construcciones
lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y categorizar una
serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos: Algoritmo ID3.
Algoritmo C4.5.
Modelos estadísticos. Es una expresión
simbólica en forma de igualdad o ecuación que se
emplea en todos los diseños experimentales y en la
regresión para indicar los diferentes factores que
modifican la variable de respuesta. Agrupamiento o Clustering. Es
un procedimiento de agrupación de una serie de vectores
según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan
características comunes. Ejemplos: Algoritmo K-means.
Algoritmo K-medoids.
Ejemplos del Uso de DM Negocios La minería de datos puede
contribuir significativamente en las aplicaciones de
administración empresarial basada en la relación
con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o
enviando cartas, sólo se contactará con aquellos
que se perciba que tienen una mayor probabilidad de responder
positivamente a una determinada oferta o promoción. Por lo
general, las empresas que emplean minería de datos ven
rápidamente el retorno de la inversión, pero
también reconocen que el número de modelos
predictivos desarrollados puede crecer muy
rápidamente.
Hábitos de Compra en Supermercados El ejemplo
clásico de aplicación de la minería de datos
tiene que ver con la detección de hábitos de compra
en supermercados. Un estudio muy citado detectó que los
viernes había una cantidad inusualmente elevada de
clientes que adquirían a la vez pañales y cerveza.
Se detectó que se debía a que dicho día
solían acudir al supermercado padres jóvenes cuya
perspectiva para el fin de semana consistía en quedarse en
casa cuidando de su hijo y viendo la televisión con una
cerveza en la mano. El supermercado pudo incrementar sus ventas
de cerveza colocándolas próximas a los
pañales para fomentar las ventas compulsivas.
Patrones de fuga Un ejemplo más habitual es el de la
detección de patrones de fuga. En muchas industrias como
la banca, las telecomunicaciones, etc. existe un comprensible
interés en detectar cuanto antes aquellos clientes que
puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes y en
función de su valor se les podrían hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el
objetivo último de retenerlos. La minería de datos
ayuda a determinar qué clientes son los más
proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes
que, efectivamente, se dieron de baja en el pasado.
Fraudes Un caso análogo es el de la detección de
transacciones de blanqueo de dinero o de fraude en el uso de
tarjetas de crédito o de servicios de telefonía
móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones
fraudulentas o ilegales suelen seguir patrones
característicos que permiten, con cierto grado de
probabilidad, distinguirlas de las legítimas y desarrollar
así mecanismos para tomar medidas rápidas frente a
ellas.
Recursos humanos La minería de datos también puede
ser útil para los departamentos de recursos humanos en la
identificación de las características de sus
empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal,
centrándose en los esfuerzos de sus empleados y los
resultados obtenidos por éstos. Además, la ayuda
ofrecida por las aplicaciones para dirección
estratégica en una empresa se traducen en la
obtención de ventajas a nivel corporativo, tales como
mejorar el margen de beneficios o compartir objetivos; y en la
mejora de las decisiones operativas, tales como desarrollo de
planes de producción o gestión de mano de
obra.
Comportamiento en Internet También es un área en
boga el del análisis del comportamiento de los visitantes
sobre todo, cuando son clientes potenciales en una página
de Internet. O la utilización de la información
obtenida por medios más o menos legítimos sobre
ellos para ofrecerles propaganda adaptada específicamente
a su perfil. O para, una vez que adquieren un determinado
producto, saber inmediatamente qué otro ofrecerle teniendo
en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero.
Terrorismo La minería de datos ha sido citada como el
método por el cual la unidad Able Danger del
Ejército de los EE.UU. había identificado al
líder de los atentados del 11 de septiembre de 2001,
Mohammed Atta, y a otros tres secuestradores del "11-S" como
posibles miembros de una célula de Al Qaeda que operan en
los EE.UU. más de un año antes del ataque. Se ha
sugerido que tanto la Agencia Central de Inteligencia y sus
homóloga canadiense, Servicio de Inteligencia y Seguridad
Canadiense, también han empleado este método.
Juegos Desde comienzos de la década de 1960, con la
disponibilidad de oráculos para determinados juegos
combinacionales, también llamados finales de juego de
tablero con cualquier configuración de inicio, se ha
abierto una nueva área en la minería de datos que
consiste en la extracción de estrategias utilizadas por
personas para estos oráculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con
éxito al funcionamiento de estos oráculos. En su
lugar, la producción de patrones perspicaces se basa en
una amplia experimentación con bases de datos sobre esos
finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseñados y con
conocimiento de la técnica Ejemplos notables de
investigadores que trabajan en este campo son Berlekamp en el
juego de puntos-y-cajas y John Nunn en finales de ajedrez.
Genética En el estudio de la genética humana, el
objetivo principal es entender la relación
cartográfica entre las partes y la variación
individual en las secuencias del ADN humano y la variabilidad en
la susceptibilidad a las enfermedades. Ingeniería
eléctrica En el ámbito de la ingeniería
eléctrica, las técnicas minería de datos han
sido ampliamente utilizadas para monitorizar las condiciones de
las instalaciones de alta tensión. Análisis de
gases También se han aplicado técnicas de
minería de datos para el análisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores
eléctricos. El análisis de gases disueltos se
conoce desde hace mucho tiempo como herramienta para diagnosticar
transformadores.
Conclusiones Un Sistema Data Mining nos permite analizar factores
de influencia en determinados procesos, predecir o estimar
variables o comportamientos futuros, segmentar o agrupar
ítems similares, además de obtener secuencias de
eventos que provocan comportamientos específicos. La
llegada del Data Mining se considera como la última etapa
de la introducción de métodos cuantitativos,
científicos en el mundo del comercio, industria y
negocios. Desde ahora, todos los no-estadísticos -es decir
el 99,5% de nosotros pueden construir modelos exactos de algunas
de sus actividades, para estudiarlas mejor, comprenderlas y
mejorarlas.