DATA MINING Definición Tradicional "Un proceso no trivial
de identificación válida, novedosa, potencialmente
útil y entendible de patrones comprensibles que se
encuentran ocultos en los datos" (Fayyad y otros, 1996). Otra
Definición “La integración de un conjunto de
áreas que tienen como propósito la
identificación de un conocimiento obtenido a partir de las
bases de datos que aporten un sesgo hacia la toma de
decisión" (Molina y otros, 2001).
Importante El data mining es una tecnología compuesta por
etapas que integra varias áreas y que no se debe confundir
con un gran software. Durante el desarrollo de un proyecto de
este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de
datos o de inteligencia artificial, principalmente. Actualmente
existen aplicaciones o herramientas comerciales de data mining
muy poderosas que contienen un sinfín de utilerías
que facilitan el desarrollo de un proyecto. Sin embargo, casi
siempre acaban complementándose con otra
herramienta.
DESCUBRIENDO INFORMACIÓN OCULTA La extracción de
información oculta y predecible de grandes bases de datos,
es una poderosa tecnología nueva con gran potencial para
ayudar a las compañías a concentrarse en la
información más importante de sus Bases de
Información (Data Warehouse). Las herramientas de Data
Mining predicen futuras tendencias y comportamientos, permitiendo
en los negocios tomar decisiones proactivas y conducidas por un
conocimiento acabado de la información
(knowledge-driven).
LOS FUNDAMENTOS DEL DATA MINING Las técnicas de Data
Mining son el resultado de un largo proceso de
investigación y desarrollo de productos. Esta
evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y
continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de evolución
más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva.
Data Mining está soportado por tres tecnologías que
ya están suficientemente maduras: Recolección
masiva de datos Potentes computadoras con multiprocesadores
Algoritmos de Data Mining LOS FUNDAMENTOS DEL DATA MINING
EL ALCANCE DE DATA MINING El nombre de Data Mining deriva de las
similitudes entre buscar valiosa información de negocios
en grandes bases de datos – por ej.: encontrar información
de la venta de un producto entre grandes montos de Gigabytes
almacenados – y minar una montaña para encontrar una veta
de metales valiosos. Ambos procesos requieren examinar una
inmensa cantidad de material, o investigar inteligentemente hasta
encontrar exactamente donde residen los valores.
EL ALCANCE DE DATA MINING Dadas bases de datos de suficiente
tamaño y calidad, la tecnología de Data Mining
puede generar nuevas oportunidades de negocios al proveer estas
capacidades: Predicción automatizada de tendencias y
comportamientos. Descubrimiento automatizado de modelos
previamente desconocidos.
LAS TÉCNICAS USADAS EN DATA MINING Redes neuronales
artificiales Arboles de decisión Algoritmos
genéticos Método del vecino más cercano
Regla de inducción
UNA ARQUITECTURA PARA DATA MINING Este diseño representa
una transferencia fundamental desde los sistemas de soporte de
decisión convencionales. Más que simplemente
proveer datos a los usuarios finales a través de software
de consultas y reportes, el server de Análisis Avanzado
aplica los modelos de negocios del usuario directamente al
warehouse y devuelve un análisis proactivo de la
información más relevante. Estos resultados mejoran
los metadatos en el server OLAP proveyendo una estrato de
metadatos que representa una vista fraccionada de los datos.
Generadores de reportes, visualizadores y otras herramientas de
análisis pueden ser aplicadas para planificar futuras
acciones y confirmar el impacto de esos planes.
PROYECTO DE MINERÍA DE DATOS– PASOS A SEGUIR Los
pasos a seguir para la realización de un proyecto de
minería de datos son siempre los mismos,
independientemente de la técnica específica de
extracción de conocimiento usada.
Fases de la minería de datos Selección y
preprocesado de datos Selección de variables
Extracción de conocimiento Interpretación y
evaluación
ALGORITMOS DE MINERÍA DE DATOS Los algoritmos de
minería de datos son quienes forman un modelo una
estructura analizando un conjunto de datos en los cuales
encuentran una serie de patrones y de tendencias
específicas, es decir que encuentran todas las conexiones
posibles que pueda haber en toda la información. Los
resultados de todas estas conexiones son los que nos proporcionan
el modelo en si, la forma que va a tomar la organización
de toda esta información por consecuencia tendrá
ciertos parámetros de los cuales se sacara los patrones
que se puedan procesar y además estadísticas
detalladas.
TIPOS DE ALGORITMOS DE MINERÍA DE DATOS Algoritmos de
clasificación Discretos Continuos Algoritmos de
segmentación Algoritmos de regresión Algoritmos de
asociación Algoritmos de análisis de
secuencias
EXTENSIONES DEL DATA MINING Web mining Las herramientas de web
mining analizan y procesan estos logs para producir
información significativa, por ejemplo, cómo es la
navegación de un cliente antes de hacer una compra en
línea. Debido a que los contenidos de Internet consisten
en varios tipos de datos, como texto, imagen, vídeo,
metadatos o hiperligas, investigaciones recientes usan el
término multimedia data mining (minería de datos
multimedia) como una instancia del web mining (Zaiane y otros,
1998) para tratar ese tipo de datos.
Clasificación de la web mining 1. Web content mining
(minería de contenido web). Es el proceso que consiste en
la extracción de conocimiento del contenido de documentos
o sus descripciones. La localización de patrones en el
texto de los documentos, el descubrimiento del recurso basado en
conceptos de indexación o la tecnología basada en
agentes también pueden formar parte de esta
categoría. 2. Web structure mining (minería
de estructura web). Es el proceso de inferir conocimiento de la
organización del WWW y la estructura de sus ligas. 3. Web
usage mining (minería de uso web). Es el proceso de
extracción de modelos interesantes usando los logs de los
accesos al web.
EXTENSIONES DEL DATA MINING Text mining Estudios recientes
indican que el ochenta por ciento de la información de una
compañía está almacenada en forma de
documentos. Sin duda, este campo de estudio es muy vasto, por lo
que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y
recuperación de la información o el aprendizaje
automático, entre otras, apoyan al text mining
(minería de texto). En ocasiones se confunde el text
mining con la recuperación de la información
(Information Retrieval o IR) (Hearst, 1999).
INCONVENIENTES DE DATA MINING Grandes volumenes de
información y altamente dimensionales, lo que dificulta el
hallazgo de patrones. Valores inconsistentes o no existentes en
algunos atributos importantes. Estas situaciones deberían
haberse corregido en la fase de población y
actualización, pero en caso de presentarse se debe tener
una política para su manejo. La representación de
los resultados no siempre es comprensible para todos los
usuarios. Valor estadístico de los patrones
hallados.
PRODUCTOS PARA MINERÍA DE DATOS Hoy existen una buena
cantidad de productos, de diversos fabricantes, para
minería de datos, varios de ellos impulsados por
universidades reconocidas [Esc96]. Por enumerar algunos,
Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind
(Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir en
sitios Internet, para las diferentes plataformas: Data Surveyor
(www.ddi.nl), IDIS (http://datamine.inter.net/datamine),VisDB
(http://www.informatik.uni-halle.de/dbs/Research/VisDB). Este
último producto tiene una versión para sistema
operativo Linux. El VisDB se ha desarrollado para apoyar la
exploración de bancos de datos grandes. Los instrumentos
de VisDB implementan severas técnicas visuales,
permitiendo trabajar con bodegas de datos de aproximadamente un
millón de valores de datos.
EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En el
gobierno A principios del mes de julio de 2002, el director del
Federal Bureau of Investigation (FBI), John Aschcroft,
anunció que el Departamento de Justicia comenzará a
introducirse en la vasta cantidad de datos comerciales referentes
a los hábitos y preferencias de compra de los
consumidores, con el fin de descubrir potenciales terroristas
antes de que ejecuten una acción. Algunos expertos
aseguran que, con esta información, el FBI unirá
todas las bases de datos probablemente mediante el número
de la Seguridad Social y permitirá saber si una persona
fuma, qué talla y tipo de ropa usa, su registro de
arrestos, su salario, las revistas a las que está
suscrito, su altura y peso, sus contribuciones a la Iglesia,
grupos políticos u organizaciones no gubernamentales, sus
enfermedades crónicas (como diabetes o asma), los libros
que lee, los productos de supermercado que compra, si tomó
clases de vuelo o si tiene cuentas de banco abiertas, entre
otros. La inversión inicial ronda los setenta millones de
dólares estadounidenses para consolidar los almacenes de
datos, desarrollar redes de seguridad para compartir
información e implementar nuevo software analítico
y de visualización.
EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la
empresa En 2001, las instituciones financieras a escala mundial
perdieron más de 2.000 millones de dólares
estadounidenses en fraudes con tarjetas de crédito y
débito. El Falcon Fraud Manager es un sistema inteligente
que examina transacciones, propietarios de tarjetas y datos
financieros para detectar y mitigar fraudes. En un principio
estaba pensado, en instituciones financieras de
Norteamérica, para detectar fraudes en tarjetas de
crédito. Sin embargo, actualmente se le han incorporado
funcionalidades de análisis en las tarjetas comerciales,
de combustibles y de débito. El sistema Falcon ha
permitido ahorrar más de seiscientos millones de
dólares estadounidenses cada año y protege
aproximadamente más de cuatrocientos cincuenta millones de
pagos con tarjeta en todo el mundo –aproximadamente el
sesenta y cinco por ciento de todas las transacciones con tarjeta
de crédito.
EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la
empresa En 2001, las instituciones financieras a escala mundial
perdieron más de 2.000 millones de dólares
estadounidenses en fraudes con tarjetas de crédito y
débito. El Falcon Fraud Manager es un sistema inteligente
que examina transacciones, propietarios de tarjetas y datos
financieros para detectar y mitigar fraudes. En un principio
estaba pensado, en instituciones financieras de
Norteamérica, para detectar fraudes en tarjetas de
crédito. Sin embargo, actualmente se le han incorporado
funcionalidades de análisis en las tarjetas comerciales,
de combustibles y de débito. El sistema Falcon ha
permitido ahorrar más de seiscientos millones de
dólares estadounidenses cada año y protege
aproximadamente más de cuatrocientos cincuenta millones de
pagos con tarjeta en todo el mundo –aproximadamente el
sesenta y cinco por ciento de todas las transacciones con tarjeta
de crédito.
Conclusiones Nuestra capacidad para almacenar datos ha crecido en
los últimos años a velocidades exponenciales. En
contrapartida, nuestra capacidad para procesarlos y utilizarlos
no ha ido a la par. Por este motivo, el data mining se presenta
como una tecnología de apoyo para explorar, analizar,
comprender y aplicar el conocimiento obtenido usando grandes
volúmenes de datos. Descubrir nuevos caminos que nos
ayuden en la identificación de interesantes estructuras en
los datos es una de las tareas fundamentales en el data
mining.
Conclusiones Las herramientas comerciales de Data Mining que
existen actualmente en el mercado son variadas y excelentes. Las
hay orientadas al estudio del web o al análisis de
documentos o de clientes de supermercado, mientras que otras son
de uso más general. Su correcta elección depende de
la necesidad de la empresa y de los objetivos a corto y largo
plazo que pretenda alcanzar. La decisión de seleccionar
una solución de Data Mining no es una tarea simple. Es
necesario consultar a expertos en el área con vista a
seleccionar la más adecuada para el problema de la
empresa.
Conclusiones El Data Mining se presenta como una
tecnología emergente, con varias ventajas: por un lado,
resulta un buen punto de encuentro entre los investigadores y las
personas de negocios; por otro, ahorra grandes cantidades de
dinero a una empresa y abre nuevas oportunidades de negocios.
Además, no hay duda de que trabajar con esta
tecnología implica cuidar un sinnúmero de detalles
debido a que el producto final involucra "toma de decisiones".