- Resumen
- Panorama general de data
mining - La forma en que se trabaja con
Data Mining - Aplicaciones
de Data Mining - Extensiones de
Data Mining - Conclusiones y
perspectivas - Referencias
En los últimos años, ha existido un gran
crecimiento en nuestras capacidades de generar y colectar
datos, debido
básicamente al gran poder de
procesamiento de las máquinas
como a su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una
gran cantidad de información "oculta", de gran importancia
estratégica, a la que no se puede acceder por las técnicas
clásicas de recuperación de la
información.
El descubrimiento de esta información "oculta" es
posible gracias a la Minería de
Datos (Data Mining), que entre otras sofisticadas
técnicas aplica la inteligencia
artificial para encontrar patrones y relaciones dentro de los
datos permitiendo la creación de modelos, es
decir, representaciones abstractas de la realidad, pero es el
descubrimiento del conocimiento
(KDD, por sus siglas en inglés)
que se encarga de la preparación de los datos y la
interpretación de los resultados obtenidos,
los cuales dan un significado a estos patrones
encontrados.
Así el valor real de
los datos reside en la información que se puede extraer de
ellos, información que ayude a tomar decisiones o mejorar
nuestra comprensión de los fenómenos que nos
rodean. Hoy, más que nunca, los métodos
analíticos avanzados son el arma secreta de muchos
negocios
exitosos.
Empleando métodos analíticos avanzados
para la explotación de datos, los negocios incrementan sus
ganancias, maximizan la eficiencia
operativa, reducen costos y mejoran
la satisfacción del cliente.
El presente trabajo
enfatiza el uso del Data Mining para el descubrimiento del
conocimiento y su uso predominante en nivel empresarial, a fin de
contribuir en la toma de
decisiones tácticas y estratégicas en una
organización proporcionando un sentido
automatizado para la generación de
conocimiento.
Vimos cual es la relación entre Data
Mining y un Data Warehouse, conocimos lo más
relevante sobre el proceso de
Data Warehousing y como esta inmerso el Data Mining
sobre su arquitectura.
Así mismo, presentamos algunas fases generales y otras un
poco más específicas sobre como implementar un
proyecto
Data Mining.
También conocimos cuales son las diferencias
entre Data Mining y los procesos de
estadística, a pesar de que son ramas con
notables diferencias, ambas pueden complementarse en sus procesos
de toma de decisiones y presentación de
resultados.
Se incluyeron aplicaciones de Data Mining en
varias áreas además de la empresarial y se da a
conocer de forma muy general el alcance que tiene el utilizar un
proceso de este tipo. Además, hablamos de algunas herramientas
de distribución libre y algunas comerciales
que son empleadas para emprender proyectos de Data
Mining.
Conocimos dos extensiones de Data Mining, Web Mining y
Text Mining, finalmente dimos algunos puntos de vista,
comentarios y opiniones sobre lo que es Data Mining y lo que se
espera de esta tecnología en los
próximos años.
Desde épocas remotas la humanidad se ha
preocupado por la creación de bienes con el
mínimo de recursos.
Distintos pueblos y en distintos períodos se practicaban
la previsión, planeación
y organización de grupos para
ejercitar diversas actividades (entre ellas la pesca,
agricultura,
el comercio, la
guerra, etc.).
En años más recientes durante la revolución
industrial se pusieron en práctica ideas que sirvieron
para la creación de la
administración, ya que durante ese tiempo se
pensó en la manera de producir más con menos
recursos. A partir de ese momento precursores e idealistas fueron
sentando las bases para la creación de la administración convirtiéndola en una
ciencia. La
humanidad ha utilizado varias formas para llevar a cabo
transacciones de los bienes, tal es el caso de los antiguos
pueblos al utilizar monedas de metal con diferentes insignias,
descripciones y denominaciones para el intercambio de
artículos o servicios.
Todo esto nos lleva a decir que es necesario conocer las
herramientas y hacer buen uso de ellas para que una empresa pueda
evaluar planes, decisiones, políticas,
procedimientos
y en general todo lo concerniente a ella, entre estas
herramientas podemos hablar de: herramientas contables,
financieras, matemáticas, economía y de
información.
El mundo experimenta cambios fundamentales. Los
continuos avances en tecnología de computadoras y
comunicaciones
tienen un fuerte impacto sobre la forma en que las personas
trabajan. La tecnología y las expectativas de las personas
que la utilizan están modificando gradualmente las
características de los sistemas de
información. Actualmente la economía de muchas
empresas y
países está basada en la información,
más en la tecnología de sistemas de
información que sobre las máquinas y productos no
relacionados con ella. El desarrollo de
los sistemas de información juega en este tiempo un papel
muy valioso dentro de las organizaciones.
En la era industrial lo más importante era el uso del
capital y
recursos tangibles para generar nuevos productos. Actualmente los
recursos básicos son las ideas y el uso de
información. El empleo
estratégico de la información continuará
creando en todas las empresas y organizaciones nuevas
oportunidades.[13]
Para desarrollar un sistema de
información se necesita tecnología y gente,
desde los usuarios de la información, pasando por los
operadores, capturistas de datos y analistas de sistemas, hasta
llegar a los niveles directivos de toda la
organización. Los primeros programadores de
computadoras desarrollaban aplicaciones que satisfacían
vagamente los requerimientos de información de los
usuarios finales. Ahora, gracias a las herramientas de hardware y software con las que se
cuenta es mucho más fácil obtener la
información necesaria y a tiempo. Una de estas
herramientas son los Sistemas Administradores de Bases de
Datos(DBMS, por sus siglas en inglés), pero vayamos
más haya, ¿qué sucedería si adoptamos
herramientas o técnicas de bases de datos que "nos digan
qué hacer" según las información que ellas
presentan?, esto nos conduce a hablar de Data
Mining o Minería de Datos.
Mientras que la innovación y la originalidad son
habilidades fundamentales para la supervivencia de las empresas,
su éxito y
prosperidad depende también de decisiones eficientes y
competitivas que deben ser tomadas en cortos intervalos de
tiempo. Para tomar decisiones, es fundamental contar con
información de calidad. Hoy en
día, el nivel gerencial cuenta con una eficaz herramienta
para lograr ese objetivo: las
técnicas de Data Mining.
Con respecto a los nuevos usos de las bases de datos, el
Data Mining aparece como uno de los más
prometedores, unido y fuertemente relacionado con los problemas
asociados a los grandes almacenes de
datos llamados Data Warehouses. La
relación entre el costo de los ordenadores y la atención humana ha cambiado
sustancialmente. El recurso más precioso es el factor
humano y los ordenadores deben potenciarlo. Esto plantea una
nueva filosofía de acceso a la información donde
los ordenadores deben analizar los datos, resumirlos,
organizarlos y resolver cuestiones mucho más complejas que
las actuales, ofreciendo al usuario la información que
realmente le interesa. Este proceso, como se verá a lo
largo de este trabajo, esta muy ligado a cuestiones de Data
Mining y Data Warehause.
Por el momento solo diremos que Data Mining es la
integración de un conjunto de áreas
que tienen como propósito la identificación de un
conocimiento obtenido a partir de las bases de datos que aporten
un sesgo hacia la toma de decisiones, en el transcurso de este
trabajo detallaremos esto y será de una forma más
comprensible. Las técnicas de Data Mining son el
resultado de un largo proceso de investigación y desarrollo de productos.
Esta evolución comenzó cuando los datos
de negocios fueron almacenados por primera vez en computadoras, y
continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de
evolución más allá del acceso y
navegación retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación en la comunidad de
negocios porque está soportado por tres tecnologías
que ya están suficientemente maduras:
- Recolección masiva de datos.
- Potentes computadoras con
multiprocesadores. - Algoritmos de Data Mining.
Las bases de datos comerciales están creciendo a
un ritmo sin precedentes. Un reciente estudio del META GROUP
sobre los proyectos de Data Warehouse encontró que
el 19% de los que contestaron están por encima del nivel
de los 50 Gigabytes. En algunas industrias, tales
como ventas al por
menor (retail), estos números pueden ser aún
mayores. MCI Telecommunications Corp. cuenta con una base de datos
de 3 terabytes + 1 terabyte de índices y overhead
corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
computacionales mejorados puede ahora alcanzarse de forma
más costo-efectiva con tecnología de computadoras
con multiprocesamiento paralelo. Los algoritmos de
Data Mining utilizan técnicas que han existido por
lo menos desde hace 10 años, pero que sólo han sido
implementadas recientemente como herramientas maduras,
confiables, entendibles que consistentemente son más
performantes que métodos estadísticos
clásicos.
En la evolución desde los datos de negocios a
información de negocios, cada nuevo paso se basa en el
previo. Por ejemplo, el acceso a datos dinámicos es
crítico para las aplicaciones de navegación de
datos (drill through applications), y la habilidad para
almacenar grandes bases de datos es crítica
para Data Mining.
Los componentes esenciales de la tecnología de
Data Mining han estado bajo
desarrollo por décadas, en áreas de
investigación como estadísticas, inteligencia
artificial y aprendizaje de
máquinas. Hoy, la madurez de estas técnicas, junto
con los motores de bases de datos relacionales de alta
performance, hicieron que estas tecnologías fueran
prácticas para los entornos de Data Warehouse
actuales.
La idea de Data Mining no es nueva. Desde los
años sesenta los estadísticos manejaban
términos como Data Fishing, Data Mining o
Data Archaeology con la idea de encontrar correlaciones
sin una hipótesis previa en bases de datos con
ruido. A
principios de
los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert
Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a
consolidar los términos de Data Mining y KDD
(Knowledge Discovery in Databases, Descubrimiento de
Conocimiento en Bases de Datos). A finales de los años
ochenta sólo existían un par de empresas dedicadas
a esta tecnología; en 2002 ya había más de
100 empresas en el mundo que ofrecen alrededor de 300 soluciones.
Las listas de discusión sobre este tema las forman
investigadores de más de ochenta países. Esta
tecnología ha sido un buen punto de encuentro entre
personas pertenecientes al ámbito académico y al de
los negocios.[20]
El presente trabajo tiene como finalidad dar a conocer
una perspectiva general acerca de todo lo referente a la teoría
de Data Mining, existen técnicas de
implantación de Data Mining, algoritmos, reglas,
etc., de las cuales no daremos mayor detalle, ya que no se
encuentran como un objetivo de este documento, solo se
mencionarán como la base teórica de la
Minería de Datos. Lo que sí perseguimos de manera
específica es dejar en claro qué es el concepto de
Data Mining, sus expectativas o finalidades, dar a conocer
sus cimientos y a qué nos llevan todos ellos, sus posibles
aplicaciones y cómo se esta usando actualmente en algunas
áreas, principalmente en el nivel empresarial. Aquí
cabe mencionar que Data Mining es un proceso utilizado
frecuentemente en macro empresas, sin embargo, también es
utilizado en las llamadas Pymes (Pequeñas Y
Medianas EmpresaS) y además a nivel científico,
aunque con menor frecuencia, es por ello que nos hemos enfocado
sobre todo a la utilización de dicho proceso en las
empresas grandes y cómo es que funciona en ellas,
aún así, creímos conveniente introducir
algunos ejemplos de su uso en otros entornos.
El primer capítulo, Panorama general de Data
Mining comienza con un ejemplo introductorio para dar una
idea general del por qué es necesario utilizar Data
Mining en ciertos casos, esto nos lleva a dar un paso previo
antes de conocer exactamente qué es Data Mining,
Data Warehouse: un paso antes de Data Mining nos menciona
qué relación hay entre Data Warehouse y
Data Mining, es importante entender este concepto ya que
podríamos decir que es una de las principales bases de la
Minería de Datos, finalmente el capítulo nos dice
lo que en realidad es Data Mining, sus objetivos y
algunas formas generales de su utilización.
La forma en qué trabaja Data Mining, el
capítulo número dos, menciona, de forma muy general
como es que está constituido Data Mining,
cuál es su arquitectura, la forma en que se implementa y
las fases que se siguen para una buena implantación de un
proyecto de Data Mining, como bien lo hemos mencionado
anteriormente, este no es un trabajo para describir
detalladamente las técnicas de la Minería de Datos,
por ello cabe aclarar que este capítulo tiene un enfoque
teórico básico.
Los dos primeros capítulos nos sirven para
entender básicamente cuáles podrían ser las
aplicaciones de Data Mining, el tercer capítulo
Aplicaciones de Data Mining nos da varios ejemplos de
dónde y cómo puede ser utilizado este proceso y
cuáles son sus ventajas en estas áreas de
aplicación (principalmente en nivel
empresarial).
El capítulo número cuatro, Extensiones
de Data Mining, abordamos dos temas complementarios que
también se utilizan como procesos de Data Mining, a
saber, el Web Mining y el Text Mining. Estos temas
también los podríamos ver como una
aplicación de Data Mining, sin embargo, los hemos
colocado en un capítulo aparte ya que están
considerados como un campo diferente, esto es, aplicaciones
vistas como un meta Data Mining.
Finalmente, el último capítulo,
Conclusiones y perspectivas, damos nuestras conclusiones y
algunos puntos de vista particulares, mencionamos cuáles
son las oportunidades que existen para trabajar en proyectos de
este tipo y qué es lo que se espera de Data Mining
en los próximos años.
Hemos incluido también un Resumen de todo
lo abordado durante nuestro documento que contempla los aspectos
más importantes aquí tratados.
En la bibliografía podrá encontrar las
direcciones http de donde se tomaron muchos de los
aspectos mencionados en el transcurso de este trabajo; cuando
coloquemos un número, por ejemplo [2], al final de
un párrafo
o cualquier sentencia, estamos haciendo referencia al
número de artículo de internet mencionado en la
bibliografía de donde fue tomado dicho párrafo o
sentencia.
CAPITULO I
PANORAMA GENERAL DE
DATA MINING.
En este capítulo abordamos los conceptos
fundamentales relacionados con Data Mining que nos
ayudarán a tener, sobre todo, una idea general de
él y además nos auxiliarán para entender los
siguientes capítulos. Comenzamos con un ejemplo
introductorio en la sección 1.1, Ejemplo de un problema
asociado a Data Mining donde pretendemos dar a conocer una
aplicación muy simple de Data Mining. Continuamos
con el apartado 1.2, Data Warehouse: Un paso antes de Data
Mining ya que creemos conveniente tener las nociones
adecuadas de este tema que se relaciona fuertemente con Data
Mining y del cuál haremos mención en el resto
de este trabajo. Finalmente, en la sección 1.3,
¿Qué es Data Mining? explicamos de la forma
que creímos útil el concepto real de Data
Mining, sus objetivos y una forma breve de cómo y
dónde se trabaja con él.
1.1. Ejemplo de un problema asociado a Data
Mining. [18]
Para poder generar una idea general del significado y
aplicación de Data Mining, consideremos el
siguiente problema:
Suponga que usted es el gerente de
mercadeo para
una compañía de telefonía
celular. El problema considera lo siguiente:
- La deserción de clientes es muy
alta. - La producción(después de que el
contrato
expira) es del 40%. - Los clientes reciben un teléfono de regalo con el
contrato. - Usted paga una comisión de ventas por
contrato. - Se le da un teléfono nuevo a cada persona cuyo
contrato ha expirado, lo cual es muy caro y por ende poco
rentable para la compañía. - Traer de regreso a un cliente después de que
se va es difícil y caro.
1.1.1. Posible solución al problema de
ejemplo.
- Se debe predecir qué clientes
abandonarán la compañía tres meses antes
de que el contrato expire. - Si queremos conservar a un cliente que creamos
abandonará la empresa, se
le debería ofrecer un nuevo teléfono. - No hay que prestarle atención a los clientes
que tienen altas posibilidades de quedarse en la empresa. - Si hay clientes que no deseamos conservar,
simplemente no hacemos nada.
Pues bien, es muy fácil pretender hacer todo lo
mencionado antes, pero ahora la pregunta es ¿cómo
lo hacemos?. No podemos tomar decisiones a la ligera, ni tomar
medidas de las cuales estamos seguros que
fallarán, por ejemplo, suena absurdo, en cuestiones como
éstas, recurrir a la lectura del
Tarot. La
solución debe basarse en algo más formal y
coherente y una de esas alternativas es Data
Mining.
1.1.2. Solución del problema ejemplo a
través de Data Mining.
La solución que puede dar Data Mining al
ejemplo del problema mencionado en esta sección considera
lo siguiente:
- Interactuar dinámicamente con el
cliente. - Trabajar hacia delante y no hacia
atrás. - Mejorar la calidad de la interacción.
- ¿El cliente quiere interactuar?
- La línea de ganancias se
salva.
- La línea de ganancias se
- Optimizar el tiempo de
interacción. - Aumentar el valor del cliente
constantemente. - Aumentar el valor de vida del
cliente.
- Aumentar el valor del cliente
En esta sección hemos visto solo un ejemplo
introductoria, en las secciones subsecuentes trataremos otros
casos e iremos explicando como es que Data Mining ofrece
soluciones a problemas de empresas.
1.2. Data Warehouse: Un paso antes de Data
Mining.
Antes de dar a conocer claramente lo que significa
Data Mining es preciso dejar en claro lo que es un Data
Warehouse que en principio lo podemos ver como un concepto
que esta antes de Data Mining y es la base de este (aunque
no siempre es así), por ello el objetivo de esta
sección es dar una idea general a este concepto, no
entraremos en muchos detalles, pero daremos a conocer lo
más relevante para que en las secciones siguientes, cuando
hablemos de Data Warehouse o Data Warehousing no
haya dudas sobre lo que nos estamos refiriendo.
Las Bases de Datos (BD) de una empresa utilizan los
ordenadores como medio para organizar sus datos de forma que sean
comprensibles para las personas. Este proceso es conocido como
Data Warehousing. La comprensión de los datos
almacenados es esencial para cualquier organización, ya
que constituye un elemento básico en la toma de
decisiones.
Un Data Warehouse es un almacén o
repositorio de datos categorizados, que concentra un gran
volumen de
información de interés
para toda una organización, la cual se distribuye por
medio de diversas herramientas de consulta y de creación
de informes
orientadas a la toma de decisiones. El objetivo del Data
Warehouse (DW) es agrupar los datos con el propósito
de facilitar su posterior análisis, de forma que sean fáciles
de acceder y, posteriormente, analizar información sobre
la propia empresa. A este tipo de datos se les conoce como
informativos. Los sistemas que manejan estos datos se
denominan OLAP (Online Analytical Processing).
Existe muchas definiciones formales de DW de distintos autores,
pero una de las mas famosas puede ser la dada por Inmon en 1992:
Un Data Warehouse es
una colección de datos orientados a temas, integrados,
no-volátiles y variante en el tiempo, organizados para
soportar necesidades empresariales.
Los Data Warehouses a menudo almacenan gran
cantidad de información, la cual está a veces
subdividida en pequeñas unidades lógicas.
Periódicamente, se importan estos datos de otros sistemas
de información dentro del Data Warehouse, para
realizar sobre ellos un procesamiento posterior. Un Data
Warehouse se diferencia de una Base de Datos operacional
de una empresa, diremos que un Data Warehouse puede
derivarse de la Base de Datos corporativa, mediante la importación de información, pero el
DW no es esa BD operacional.[7]
Muchos de los datos de una empresa se utilizan como
soporte a los negocios, por eso a este tipo de datos se les
denomina operacionales. Los sistemas usados con el fin de
recogerlos reciben el nombre de OLTP (Online
Transaction Processing).[10]
Las principales características o propiedades de
un DW son las siguientes:
- El DW está orientado a la toma de decisiones.
Un buen diseño de la base de datos favorece el
análisis y la recuperación de datos para obtener
una ventaja estratégica y para facilitar las decisiones
de marketing. - El DW almacena datos categorizándolos o
estructurándolos de forma que favorezcan el
análisis de los datos y puedan proporcionar
análisis históricos. - El DW no está orientado a procesos
relacionados con la operativa de la empresa, es decir, que solo
esta destinado a funcionar como un "almacén de
datos". - El DW está preparado para ser explotado
mediante herramientas específicas que permiten la
extracción de información significativa y
patrones de comportamiento que permanecen ocultos en un
enorme repositorio de datos. Esta explotación de los
datos se suele realizar con herramientas de Data
Mining.
1.2.1. Software para un Data
Warehouse.[10]
La información estratégica se almacena en
Gigabytes(tal vez más) de datos de marketing. En este caso
se necesita software especializado que permita capturar los datos
relevantes en forma rápida. El software no debería
limitarse únicamente al acceso a los datos, sino
también, al análisis significativo de los datos,
esto es, transformar los datos de la información cruda o
no procesada, en información útil para la
empresa.
El software o herramientas de negocios inteligentes se
colocan sobre la plataforma Data Warehousing y proveen
este servicio.
Debido a que son el punto principal de contacto entre la
aplicación del depósito y la gente que lo usa,
estas herramientas pueden constituir la diferencia entre el
éxito o fracaso de un depósito.
Las herramientas de negocio inteligentes se han
convertido en los sucesores de los sistemas de soporte de
decisión, pero tienen un alcance más amplio. No
solamente ayudan en las decisiones de soporte sino, en muchos
casos, estas herramientas soportan muchas funciones
operacionales y de misión-crítica de la
compañía. Sin embargo, estos productos no son
infalibles ya que sólo se consigue el máximo
provecho del Data Warehouse, si eligen las herramientas
adecuadas a las necesidades de cada usuario final.
Una de estas herramientas es Data Mining, sin
embargo, hay otras que no mencionaremos ya que se encuentran
fuera de los objetivos de este trabajo. El proceso de Data
Mining extrae los conocimientos guardados o
información predictiva desde el Data Warehouse sin
requerir pedidos o preguntas específicas. Data
Mining usa algunas de las técnicas de computación más avanzadas para
generar modelos y asociaciones como redes neurales,
detección de desviación, modelado predictivo y
programación genética.
1.2.2. Ventajas y Desventajas del Data
Warehouse.
La utilización de Data Warehouse
proporciona una serie de ventajas:
- Proporciona un gran poder de procesamiento de
información. - Permite una mayor flexibilidad y rapidez en el acceso
a la información. - Facilita la toma de decisiones en los
negocios. - Las empresas obtienen un aumento de la productividad.
- Proporciona una comunicación fiable entre todos los
departamentos de la empresa. - Mejora las relaciones con los proveedores
y los clientes. - Permite conocer qué está pasando en el
negocio, es decir, estar siempre enterado de los buenos y malos
resultados. - Transforma los datos en información y la
información en conocimiento. - Permite hacer planes de forma más
efectiva. - Reduce los tiempos de respuesta y los costes de
operación.
Resumiendo, el Data Warehouse proporciona una
información de gestión
accesible, correcta, uniforme y actualizada. Proporciona un menor
coste en la toma de decisiones, una mayor flexibilidad ante el
entorno, un mejor servicio al
cliente y permite el rediseño de los
procesos.
Pero los Data Warehouse también tienen
algunas desventajas:
- Requieren una revisión del modelo de
datos, objetos, transacciones y además del
almacenamiento. - Tienen un diseño complejo y
multidisciplinar. - Requieren una reestructuración de los sistemas
operacionales. - Tienen un alto coste.
- Requieren sistemas, aplicaciones y almacenamiento
específico.
Por último, cabe mencionar la existencia del
Data Marts (Mercado de Datos)
que es una versión más reducida de un Data
Warehouse, a menudo conteniendo información
específica de algún departamento, como marketing,
finanzas o
mantenimiento
de la red. Idealmente,
el Data Marts debería ser un subconjunto del
Data Warehouse, a fin de mantener consistencia en las
prácticas de administración de datos corporativos y para
mantener la seguridad y la
integridad de la información cruda que se está
usando. Para las grandes compañías, el Data
Marts usualmente contiene una docena de gigabytes de datos.
Ahora podemos continuar y dar una explicación de lo que en
realidad es Data Mining, a pesar de que en este apartado
hemos dado una definición de manera somera.
1.3. ¿Qué es Data
Mining?[14]
Cada día generamos una gran cantidad de
información, algunas veces conscientes de que lo hacemos y
otras veces inconscientes de ello porque lo desconocemos. Nos
damos cuenta de que generamos información cuando
registramos nuestra entrada en el trabajo,
cuando entramos en un servidor para ver
nuestro correo, cuando pagamos con una tarjeta de crédito
o cuando reservamos un boleto de avión. Otras veces no nos
damos cuenta de que generamos información, como cuando
conducimos por una vía donde están contabilizando
el número de automóviles que pasan por minuto,
cuando se sigue nuestra navegación por Internet o cuando
nos sacan una fotografía
del rostro al haber pasado cerca de una oficina
gubernamental.
¿Con qué finalidad queremos generar
información? Son muchos los motivos que nos llevan a
generar información, ya que nos pueden ayudar a controlar,
optimizar, administrar, examinar, investigar, planificar,
predecir, someter, negociar o tomar decisiones de cualquier
ámbito según el dominio en que
nos desarrollemos. La información por sí misma
está considerada un bien patrimonial. De esta forma, si
una empresa tiene una pérdida total o parcial de
información provoca bastantes perjuicios. Es evidente que
la información debe ser protegida, pero también
explotada.
¿Qué nos ha permitido poder generar tanta
información? En los últimos años, debido al
desarrollo tecnológico a niveles exponenciales tanto en el
área de cómputo como en la de transmisión de
datos, ha sido posible que se gestionen de una mejor manera el
manejo y almacenamiento de la información. Sin duda
existen cuatro factores importantes que nos han llevado a este
suceso:
- El abaratamiento de los sistemas de almacenamiento
tanto temporal como permanente. - El incremento de las velocidades de cómputo en
los procesadores. - Las mejoras en la confiabilidad y aumento de la
velocidad en
la transmisión de datos. - El desarrollo de sistemas administradores de bases de
datos más poderosos.
Actualmente todas estas ventajas nos han llevado a
abusar del almacenamiento de la información en las bases
de datos. Podemos decir que algunas empresas almacenan un cierto
tipo de datos al que se ha denominado dato-escritura, ya
que sólo se guarda (o escribe) en el disco duro,
pero nunca se hace uso de él. Generalmente, todas las
empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer
consultas dirigidas. Un nuevo tipo de dato al cual se ha llamado
dato-escritura-lectura-análisis es el que proporciona
en conjunto un verdadero conocimiento y nos apoya en las tomas de
decisiones. Es necesario contar con tecnologías que nos
ayuden a explotar el potencial de este tipo de datos. La cantidad
de información que nos llega cada día es tan
inmensa que nos resulta difícil asimilarla. Basta con ir
al buscador AltavistaÓ y solicitar la palabra
information para ver que existen 171.769.416 sitios donde
nos pueden decir algo al respecto. Suponiendo que nos tomemos un
minuto para ver el contenido de cada página,
tardaríamos entonces 326 años en visitarlas todas.
Esto es imposible, y, por lo tanto, existe una clara necesidad de
disponer de tecnologías que nos ayuden en nuestros
procesos de búsqueda y, aún más, de
tecnologías que nos ayuden a comprender su
contenido.
Como bien sabemos, algunos sistemas producen una
cantidad inmensa de datos; estos datos con frecuencia contienen
valiosa información que puede resultar muy útil y
ser vista como vetas de oro por los
ojos de un ejecutivo de una corporación. Las dimensiones
de las base de datos grandes (montañas) y sus velocidades
de crecimiento, hacen muy difícil para un humano su
análisis y la extracción de alguna
información importante (oro). Aún con el uso de
herramientas estadísticas clásicas esta tarea es
casi imposible.
El Data Mining surge como una tecnología
que intenta ayudar a comprender el contenido de una base de
datos. De forma general, los datos son la materia prima
bruta, en el momento que el usuario les atribuye algún
significado especial pasan a convertirse en información.
Cuando los especialistas elaboran o encuentran un modelo,
haciendo que la interpretación del confronto entre la
información y ese modelo represente un valor agregado,
entonces nos referimos al conocimiento. En la figura 1.1 se
ilustra la jerarquía que existe en una base de datos entre
dato, información y conocimiento. Se observa igualmente el
volumen que presenta en cada nivel y el valor que los
responsables de las decisiones le dan en esa jerarquía. El
área interna dentro del triángulo representa los
objetivos que se han propuesto. La separación del
triángulo representa la estrecha unión entre dato e
información, no así entre la información y
el
conocimiento. El Data Mining trabaja en el nivel
superior buscando patrones, comportamientos, agrupaciones,
secuencias, tendencias o asociaciones que puedan generar
algún modelo que nos permita comprender mejor el dominio
para ayudar en una posible toma de decisión.
Figura 1.1. Relación entre
Dato, Información y conocimiento.
El descubrimiento de conocimiento en base de datos (KDD,
de Knowledge Discovery in Databases) combina las
técnicas tradicionales con numerosos recursos
desarrollados en el área de la inteligencia artificial. En
estas aplicaciones el término "Minería de Datos"
(Data Mining) ha tenido más aceptación. En algunos
casos las herramientas provenientes de la inteligencia artificial
son nuevas, no del todo comprendidas y carentes de un soporte
teórico formal. Pero en este caso el objetivo es tan
valioso, que los resultados prácticos han rebasado a la
elegancia académica.
Con todo lo anterior podemos decir que Data Mining es
el proceso de descubrir patrones de información
interesante y potencialmente útiles, inmersos en una gran
base de datos en la que se interactúa constantemente.
Data Mining es una combinación de procesos
como:
- Extracción de datos
- Limpieza de datos.
- Selección de
características. - Algoritmos.
- Análisis de resultados.
Las herramientas de Data Mining exploran gran
cantidad de datos dentro de una BD grande, y mediante su
análisis predicen posibles tendencias o comportamientos
futuros entro de una empresa, permitiendo al experto tomar
decisiones en los negocios de una forma rápida y
utilizando un conocimiento que de otra forma no habría
encontrado. Mediante la utilización de estas herramientas
se pueden generar nuevas oportunidades de negocio. Algunas
posibilidades que ofrecen estas herramientas son:
- Predicción automatizada de tendencias y
comportamientos. - Descubrimiento automatizado de modelos
desconocidos. - Descubrimiento de anomalías y acciones
fraudulentas por parte de clientes.
Este producto esta
fuertemente relacionado con análisis estadísticos,
el objetivo de generar hipótesis
potenciales de interés que son posteriormente verificadas
(Vea la figura 1.2.).
Figura 1.2.
Encontrar patrones significativos en todos los datos
puede proporcionar una ventaja competitiva a cualquier
organización.
Otra definición que se puede dar de Data
Mining y que es muy común encontrar dice: "Una
actividad de extracción cuyo objetivo es el de descubrir
hechos contenidos en las bases de datos". En la
mayoría de los casos se refiere a un trabajo automatizado.
Si hay alguna intervención humana a lo largo del proceso,
este no es considerado como minería de datos por parte
algunas personas. La palabra descubrimiento está
relacionada con el hecho de que mucha de la información
valiosa es desconocida con anterioridad. En todo caso, estas
técnicas pueden ayudar a confirmar cualquier sospecha
sobre el comportamiento del sistema en un
particular contexto. En cuanto a los hechos escondidos, estos
estarán principalmente bajo la forma de reglas las cuales
nos ayudarán a entender el modelo del sistema relacionado
con los datos observados. Por otra parte, las reglas
también pueden ser usadas en la predicción de
ciertos estado del sistema (lo que se busca).
Desde un punto de vista académico el
término Data Mining es una etapa dentro de un
proceso mayor llamado KDD. Lo que en verdad hace el Data
Mining es reunir las ventajas de varias áreas como la
Estadística, la Inteligencia Artificial, la
Computación Gráfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima
las bases de datos.
El Data Mining es una tecnología compuesta
por etapas que integra varias áreas y que no se debe
confundir con un gran software. Durante el desarrollo de un
proyecto de este tipo se usan diferentes aplicaciones software en
cada etapa que pueden ser estadísticas, de
visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas
comerciales de Data Mining muy poderosas que contienen un
sinfín de utilerías que facilitan el desarrollo de
un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.[19]
1.3.1. ¿Dónde se utiliza Data
Mining?
La utilidad de Data
Mining se puede dar dentro de los siguientes aspectos:
- Sistemas parcialmente desconocidos: Si el
modelo del sistema que produce los datos es bien conocido,
entonces no necesitamos de la minería de datos ya que
todas las variables
son de alguna manera predecibles. Este no es el caso del
comercio electrónico, debido a los efectos del comportamiento
humano, el clima y de
decisiones políticas entre otros. En estos casos
habrá una parte del sistema que es conocida y
habrá una parte aparentemente de naturaleza
aleatoria. Bajo ciertas circunstancias, a partir de una gran
cantidad de datos asociada con el sistema, existe la
posibilidad de encontrar nuevos aspectos previamente
desconocidos del modelo. - Enorme cantidad de datos: Al contar con mucha
información en algunas bases de datos es importante para
una empresa encontrar la forma de analizar "montañas" de
información (lo que para un humano sería
imposible) y que ello le produzca algún tipo de
beneficio. - Potente hardware y software: Muchas de las
herramientas presentes en la minería de datos
están basadas en el uso intensivo de la
computación, en consecuencia, un equipo conveniente y un
software eficiente, con el cual cuente una
compañía, aumentará el desempeño del proceso de buscar y
analizar información, el cual a veces debe
vérselas con producciones de datos del orden de los
Gbytes/hora (repetimos, algo humanamente imposible). Por
ejemplo, las técnicas de Data Mining son
utilizadas habitualmente para el análisis y
explotación de datos de un Data
Warehouse(véase la sección 1.2). El uso del
Data Mining puede ser provechoso en el caso de poseer un
Data Warehouse que contenga datos sobre sus procesos
productivos, datos de seguimiento de clientes, datos externos
de mercado, datos sobre la actividad de competidores,
etc.
Una vez que las herramientas de Data Mining fueron
implementadas en computadoras cliente servidor de alto
rendimiento o de procesamiento paralelo, pueden analizar bases de
datos masivas para brindar respuesta a preguntas tales como,
¿cuales clientes tienen mas probabilidad de
responder al próximo envío de correo promocional, y
por qué? y presentar los resultados en formas de tablas,
con gráficas, reportes, texto,
hipertexto, etc.
Un ejemplo trivial de minería de datos, es su uso
en un departamento de ventas. Si una tienda registra las ventas
de un cliente y es sabido que ese cliente compra muchas camisas
de seda, el sistema de Data Mining hará una
correlación entre ese cliente y las camisas de seda. El
departamento de compras
mirará la información y realizará
envíos de información sobre camisas de seda a ese
cliente, o a todos los clientes que sigan ese modelo obtenido. En
este caso el sistema de Data Mining es usado para recoger
o extraer información nueva sobre los clientes, la cual
estaba oculta anteriormente.
El Data Mining también es fundamental en
la investigación científica y
técnica, como herramienta de análisis y
descubrimiento de conocimiento a partir de datos de observación o de resultados de experimentos.
1.3.2. Los objetivos principales de Data
Mining.
Data Mining persigue ciertos objetivos de manera
especifica, a saber:
- Descripción: El principal producto del
proceso de la minería de datos es el descubrimiento de
reglas. Estas mostrarán nuevas relaciones entre las
variables o excepciones de acuerdo a la empresa en que se
utilice este proceso. Ello enriquecerá el
análisis y la descripción de la forma en que trabaja
una compañía y ayudará en la planificación y en el diseño de
futuros cambios. Es posible que algunas de las reglas
descubiertas no puedan ser cambiadas, pero si resulte posible
realizar modificaciones apropiadas en la organización
con el propósito de mejorar su
desempeño. - Predicción (Forecasting): Una
vez descubiertas reglas importantes, estas pueden ser
utilizadas pera estimar algunas variables de salida. Puede ser
en el caso de secuencias en el tiempo, o bien en la
identificación e interrupción a tiempo, de una
futura mala experiencia de crédito. En esta tarea, se
complementan las técnicas estadísticas
tradicionales con aquellas provenientes de la inteligencia
artificial. Conceptos adaptativos como los algoritmos
genéticos y las redes
neuronales, permiten realizar predicciones más
acertadas, especialmente en casos de gran complejidad y con
relaciones internas.
1.3.3. Algunas herramientas utilizadas en Data Mining
de la Inteligencia artificial.
- Redes Neuronales (Neural Networks):
Grupo de
unidades interconectadas y organizadas por capas. Estas pueden
ser funciones matemáticas y números almacenados
en computadoras digitales, pero pueden ser elaboradas
también mediante dispositivos analógicos como los
transistores a
efecto de campo. A pesar del incremento en velocidad y de la
escala de
integración en los semiconductores, la mejor contribución de
las redes neuronales tendrá que esperar por computadoras
más rápidas, masivas y paralelas. - Mapas característicos de Kohonen
(Self-organizing Maps): Es una red neuronal donde los
datos son mostrados a la estructura y
esta se sensibiliza a los patrones presentes. Una vez entrenada
es capaz de identificar tales patrones en nuevos
datos. - Reconocimiento de patrones (Pattern
Recognition): Se trata de un grupo de técnicas
orientadas a evaluar la similitud y las diferencias entre
señales. Se involucran en esto a varios
tipos de pre-procesamiento tales como la transformada de
Fourier. - K-nearest neibor: Un procedimiento
para clasificar a los records de un archivo
mediante la identificación de grupos (clusters) y
decidiendo a cual grupo pertenece cada uno de los
records. - Algoritmo Genético (Genetic
Algorithm): Imitando la evolución de las
especies mediante la mutación, reproducción y selección, estos algoritmos proporcionan
programas y
optimizaciones que pueden ser utilizados en la construcción y entrenamiento
de otras estructuras
como las redes neuronales.
CAPITULO II
LA FORMA EN QUE SE
TRABAJA CON DATA MINING.
El presente capítulo esta enfocado, como lo dice
su nombre, a la forma en que se trabaja con Data Mining,
es decir, veremos cómo es la arquitectura de Data
Mining y su relación estrecha con un Data
Warehouse, esto en la sección 2.1, La Arquitectura
de Data Mining, y abordaremos en el apartado 2.2, Fases
para la creación de un proyecto Data Mining, las cinco
etapas que son llevadas a cabo para poner en marcha un proyecto
de Data Mining, por supuesto que no es nuestra
intención dar una guía detallada para poder
realizar algo de esta naturaleza, pero sí una referencia
adecuada, ya que en la realidad, construir un proyecto de tal
naturaleza, y en sí un proyecto de cualquier tipo, depende
mucho de las circunstancias reales a la cuales nos estemos
enfrentando.
2.1. La Arquitectura de Data Mining.
[19]
Dadas bases de datos de suficiente tamaño y
calidad, la tecnología de Data Mining puede generar nuevas
oportunidades de negocios al proveer estas
capacidades:
- Predicción automatizada de tendencias y
comportamientos: Data Mining automatiza el proceso
de encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un
intenso análisis manual, ahora
pueden ser contestadas directa y rápidamente desde los
datos. Un típico ejemplo de problema predecible es el
marketing, Data Mining usa datos en anuncios
publicitarios anteriores para identificar posibles objetivos
para maximizar los resultados de la inversión en futuros anuncios. Otros
problemas predecibles incluyen pronósticos de problemas financieros
futuros o identificar segmentos de población que probablemente respondan
similarmente a eventos dados
(por ejemplo, anuncios de televisión). - Descubrimiento automatizado de modelos previamente
desconocidos. Las herramientas de Data Mining barren las
bases de datos e identifican modelos previamente escondidos en
un sólo paso. Otros problemas de descubrimiento de
modelos incluye detectar transacciones fraudulentas de tarjetas de
créditos e identificar datos anormales
que pueden representar errores de tipeado en la carga de
datos.
Las técnicas de Data Mining pueden
redituar los beneficios de automatización en las plataformas de
hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se
actualicen y nuevos productos sean desarrollados. Cuando las
herramientas de Data Mining son implementadas en sistemas
de procesamiento paralelo de alto performance (rendimiento),
pueden analizar bases de datos masivas en minutos. Procesamiento
más rápido significa que los usuarios pueden
automáticamente experimentar con más modelos para
entender datos complejos. La alta velocidad hace que sea
práctico para los usuarios analizar inmensas cantidades de
datos. Grandes bases de datos, a su vez, producen mejores
predicciones.
Las bases de datos pueden ser grandes tanto en
profundidad como en ancho:
- Más columnas. Los analistas muchas
veces deben limitar el número de variables a examinar
cuando realizan análisis manuales debido
a limitaciones de tiempo. Sin embargo, variables que son
descartadas porque parecen sin importancia pueden proveer
información acerca de modelos desconocidos. Un Data
Mining de alto rendimiento permite a los usuarios explorar toda
la base de datos, sin preseleccionar un subconjunto de
variables. - Más filas. Muestras mayores producen
menos errores de estimación y desvíos, y permite
a los usuarios hacer inferencias acerca de pequeños pero
importantes segmentos de población.
2.1.1. Los Modelos de Data Mining.
¿Cuán exactamente es capaz Data
Mining de decirle cosas importantes que usted desconoce o que
van a pasar? La técnica usada para realizar estas
hazañas en Data Mining se llama Modelado. Modelado
es simplemente el acto de construir un modelo en una
situación donde usted conoce la respuesta y luego la
aplica en otra situación de la cual desconoce la
respuesta. Por ejemplo, si busca un galeón español
hundido en los mares lo primero que podría hacer es
investigar otros tesoros españoles que ya fueron
encontrados en el pasado. Notaría que esos barcos
frecuentemente fueron encontrados fuera de las costas de Bermuda
y que hay ciertas características respecto de las
corrientes oceánicas y ciertas rutas que probablemente
tomará el capitán del barco en esa época.
Usted nota esas similitudes y arma un modelo que incluye las
características comunes a todos los sitios de estos
tesoros hundidos. Con estos modelos en mano sale a buscar el
tesoro donde el modelo indica que en el pasado hubo más
probabilidad de darse una situación similar. Con un poco
de esperanza, si tiene un buen modelo, probablemente
encontrará el tesoro.
Este acto de construcción de un modelo es algo
que la gente ha estado haciendo desde hace mucho tiempo,
seguramente desde antes del auge de las computadoras y de la
tecnología de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente
construye modelos. Las computadoras son cargadas con mucha
información acerca de una variedad de situaciones donde
una respuesta es conocida y luego el software de Data
Mining en la computadora
debe correr a través de los datos y distinguir las
características de los datos que llevarán al
modelo. Una vez que el modelo se construyó, puede ser
usado en situaciones similares donde usted no conoce la
respuesta.
Si alguien le dice que tiene un modelo que puede
predecir el uso de los clientes, ¿Cómo puede saber
si es realmente un buen modelo? La primera cosa que puede probar
es pedirle que aplique el modelo a su base de clientes – donde
usted ya conoce la respuesta. Con Data Mining, la mejor
manera para realizar esto es dejando de lado ciertos datos para
aislarlos del proceso de Data Mining. Una vez que el
proceso está completo, los resultados pueden ser testeados
contra los datos excluidos para confirmar la validez del modelo.
Si el modelo funciona, las observaciones deben mantenerse para
los datos excluidos.
2.1.2. Data Mining dentro de una arquitectura
Data Warehousing.
Las técnicas de Data Mining son utilizadas
habitualmente para el análisis y explotación de
datos de un Data Warehouse. El uso del Data Mining
puede ser provechoso por ejemplo en el caso de que una empresa
posea un Data Warehouse que contenga datos sobre sus
procesos productivos, datos de seguimiento de clientes, datos
externos de mercado, datos sobre la actividad de competidores,
etc., es una poderosa tecnología nueva con gran potencial
para ayudar a las compañías a concentrarse en la
información más importante de su base de
información (Data Warehouse).
Para aplicar mejor técnicas avanzadas de Data
Mining, éstas deben estar totalmente integradas con el
Data Warehouse así como con herramientas flexibles
e interactivas para el análisis de negocios. Varias
herramientas de Data Mining (de algunas hablaremos en el
Capitulo III) actualmente operan fuera del Warehouse,
requiriendo pasos extra para extraer, importar y analizar los
datos. Además, cuando nuevos conceptos requieren
implementación operacional, la integración con el
Warehouse simplifica la aplicación de los
resultados desde Data Mining. El Data Warehouse
puede ser aplicado para mejorar procesos de negocios en toda la
organización, en áreas tales como manejo de
campañas promocionales, detección de fraudes,
lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un Data Warehouse que
contenga una combinación de datos de seguimiento interno
de todos los clientes junto con datos externos de mercado acerca
de la actividad de los competidores. Información
histórica sobre potenciales clientes también provee
una excelente base para la predicción de tendencias. Este
Warehouse puede ser implementado en una variedad de
sistemas de bases de datos relacionales y debe ser optimizado
para un acceso a los datos flexible y rápido.
Las soluciones que aporta el Data Mining
están basadas en la implementación, a través
de la programación, de interfaces de uso general y
algoritmos propios y disponibles para todos que permiten una
eficiente exploración y organización de los datos.
Estos algoritmos apoyan la identificación de patrones,
relaciones y anomalías de interés potencial para
los que toman las decisiones en los negocios. Además de
implementar estos algoritmos en un método
accesible para el usuario la tecnología del Data
Mining requiere una comprensión de varias bases de
datos e implementación de soluciones de Data Mining
para aprovechar las características de dichas bases de
datos (si hay alguna) y que hacen que las tareas del Data
Mining sean más eficientes en grandes volúmenes
de datos. Además de las implementaciones de algoritmos,
consideraciones claves relativas al Data Mining
serían la preparación de datos y el asegurar la
escalabilidad y rendimiento en grandes volúmenes de
datos.
2.2. Creación de un proyecto Data
Mining.
La creación de un proyecto de Data Mining
pasa por diferentes fases, estas varían de autor en autor
y también dependen de dónde se vaya a implantar
dicho proyecto, aquí presentamos una forma general para la
creación de un proyecto de DM y una forma más
específica, estas fases sirven como una guía
parcial para elegir una buena forma de implantar un proyecto de
este tipo, al final de esta sección presentamos algunas
recomendaciones para crear un proyecto de Data Mining de Juan
Uwaldo Redondo.
2.2.1. Fases generales para la creación de un
proyecto Data Mining.[6]
En esta parte se emplean cuatro fases independientemente
de la técnica específica de extracción de
conocimiento usada.
- Filtrado de datos.
- Selección de Variables.
- Extracción de Conocimiento.
- Interpretación y Evaluación.
Estas fases las explicamos enseguida.
- Filtrado de datos: El formato de los datos
contenidos en la fuente de datos nunca es el idóneo, y
la mayoría de las veces no es posible utilizar
ningún algoritmo de
minería. Mediante el preprocesado, se filtran los datos
(se eliminan valores
incorrectos, no válidos, desconocidos, etc.), se
obtienen muestras de los mismos (mayor velocidad de respuesta
del proceso), o se reducen el número de valores posibles
(mediante redondeo, agrupamiento, etc.). - Selección de variables: Aún
después de haber sido preprocesados, se sigue teniendo
una cantidad ingente de datos. La selección de
características reduce el tamaño de los datos,
eligiendo las variables más influyentes en el problema,
sin apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minería. Los métodos para
la selección de características son
dos:
- Los basados en la elección de los mejores
atributos del problema. - Los que buscan variables independientes mediante
tests de sensibilidad, algoritmos de distancia o
heurísticos.
- Extracción de Conocimiento: Mediante
una técnica se obtiene un modelo de conocimiento, que
representa patrones de comportamiento observados en los valores
de las variables del problema o relaciones de asociación
entre dichas variables. También pueden usarse varias
técnicas a la vez para generar distintos
modelos. - Interpretación y evaluación:
Finalmente se procede a su validación, comprobando que
las conclusiones son válidas y satisfactorias. En el
caso de haber obtenido varios modelos mediante el uso de
distintas técnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al problema. Si ninguno de
los modelos alcanza los resultados esperados, se
alterará alguno de los procesos anteriores en busca de
nuevos modelos.
2.2.2. Las Fases para la creación de un
proyecto DM según José Emilio Gondar
Nores.[11]
José Emilio Gondar Nores nos dice que las fases
que se siguen para la creación de un proyecto DM son las
siguientes.
- Fase I: Diseñar una estrategia para
el proyecto DM. - Fase II: Construcción y diseño de una
BD: Data Warehouse y OLAP - Fase III: Creación aplicaciones inteligentes
del modelo Data Mining. - Fase IV: Formación del equipo humano fijo de
Data Mining. - Fase V: Lanzamiento del modelo de DM,
evaluación de la calidad y corrección de los
errores del modelo de DM.
Estas fases son un tanto más específicas
que las que veremos posteriormente, su explicación es la
siguiente.
- Fase I: Diseñar una estrategia para el
proyecto DM: Durante esta fase se debe diseñar, lo
mejor posible, una estrategia y una metodología, además de adaptar la
situación del entorno a un plan para la
creación de un proyecto de Data Mining, como
recordará, al inicio de este capítulo hicimos
mención del hecho que un proyecto de Data Mining
e incluso un proyecto de cualquier otra índole, su
planificación y la forma en que deba trabajarse
dependerá en gran medida de las circunstancias a las
cuales nos estemos enfrentando, debemos apegarnos a lo que el
usuario o cliente nos solicite, no entregar más pero
tampoco menos, otro de los factores clave, también es el
considerar los recursos económicos con los cuales se
cuente para trabar un proyecto de Data Mining. Otro de los
puntos a establecer es el tiempo límite en el cual se
deberá trabajar con un proyecto de este
tipo. - Fase II: Construcción y diseño de
una BD: Data Warehouse y OLAP: Se considera la
implementación del almacén de datos (Data
Warehouse). Las 4 etapas típicas de
construcción y modelado de un DW son las
siguientes:
- Indicadores y Dimensiones del Negocio.
- Identificación del origen de
datos. - Pruebas e Implementación.
- Evaluación y Explotación.
Para Bases de Datos se emplean, entre otros, el
software OracleÓ y MicrosoftÓ .
La implementación del OLAP tiene 4
fases:
- Fusión de Datos.
- Depurar los Datos.
- Agregar los Datos.
- Organizar los Datos.
Para OLAP se emplean, entre otros, el software
MicrosoftÓ
y MicrostrategyÓ .
- Fase III: Creación de Aplicaciones
Inteligentes del Modelo de DM: Esta fase integra los
siguientes puntos:
- Creación de aplicaciones inteligentes
(Inteligencia Artificial) del modelo de DM: creación p.
ej., de patrones, reglas de asociación, árboles de decisión,
etc. - Integración de todas las BD (es decir, de toda
la información del DW). - Creación de un único fichero de datos:
ficheros lineales ( todos los casos y variables tiene el mismo
valor) y no lineales (en este tipo de ficheros existen
situaciones, sujetos y acciones ocultas o
incompletas). - Planteamiento de un DM (Metodologías o
estrategias). Hay dos tipos de
planteamientos:
SEMMA (SAS):
- S. Samplig: Muestreo.
- E. Exploration: Exploración de las
Bases de datos. - M. Modification: Modificación o
transformación de variables para crear (en su caso)
variables más aptas para los
análisis. - M. Modelling: Modelado
estadístico. - A. Assessment: Evaluación del DM,
medido en coeficiente %.
CRISP-DM (SPSS):
- Comprensión del negocio.
- Compresión de los datos.
- Preparación de los datos.
- Modelado.
- Evaluación.
- Lanzamiento.
- Fase IV: Formación del equipo humano fijo
de Data Mining: La formación del staff de
diseño, desarrollo y mantenimiento del DM considera a 5
personas fijas: - Jefe de proyecto.
- Coordinador de DM.
- Analista de DM.
- Diseñador de DW.
- Ayudante de DM.
En esta fase se debe realizar la explicación a
este equipo de la lógica
de sistema y del funcionamiento de la aplicación del DM y
la selección del staff. Se plantean en esta fase dos
posibles situaciones:
- El cliente crea su propio equipo y éste
mantiene el DM. Se ayuda a crear este equipo para que trabaje
de modo autónomo del creador. - El cliente subcontrata un servicio de Outsourcing. En
este caso, se debe plantear una oferta de
servicio de apoyo y consultaría constante Post-hoc
(posterior a la implantación de la solución de
DM). Esto da lugar a viajes,
estancia y gastos.
- Fase V: Lanzamiento del modelo de DM,
evaluación de la calidad y corrección de los
errores del modelo de DM: La evaluación y
corrección de los errores del modelo de DM afecta a la
gestión y control de
calidad del modelo DM. Hay tres tipos de
tareas:
- Estudiar posibles errores y detectarlos en el
funcionamiento de la aplicación. - Plantear posibles correcciones o soluciones a dichos
errores. - Evaluar la calidad del sistema o aplicación
del DM construido.
2.2.3. Recomendaciones para la creación de un
proyecto Data Mining.[15]
Juan Uwaldo Redondo nos da algunas recomendaciones para
poder implantar un proyecto de Data Mining.
- Analice sus necesidades de información.
Sea realista con ellas y contemple los futuros crecimientos.
Evite que en poco tiempo su sistema se quede pequeño o
poco operativo. - No tenga complejos técnicos por no ser un
experto. Usted es quien mejor conoce su empresa y a sus
clientes. - Pida asesoramiento externo. La visión
de alguien experto en procesos y ajeno a la
compañía, introducirá un soplo de aire fresco y
una visión más rica del problema. - No mate moscas a cañonazos. No implante
sistemas que no necesita. Además de caros, serán
un obstáculo y una hipoteca para futuros
crecimientos. - Si pide una valoración externa de sus
sistemas y procesos, elija con cuidado. Si invita a
Ferrari, le venderán un Ferrari aunque lo que usted
necesite sea una furgoneta. - Contraste opiniones. Utilice la
situación para proponer mejoras en los procesos, en las
rutinas, y en la forma de trabajar. Puede ser un excelente
pretexto para revisar procedimientos y recortar costes. En
cualquier caso, no informatice el caos. - No implante nada que no necesite de verdad. Si
lo implanta mantenga una visión a medio-largo
plazo. - Utilice las herramientas y los recursos de los que
ya dispone. Contratar un proyecto o un sistema más
caro no va a hacer que aumente su rentabilidad.
Página siguiente |