Monografias.com > Tecnología
Descargar Imprimir Comentar Ver trabajos relacionados

Principios de Data Mining




Enviado por goodlafa



Partes: 1, 2

    1. Resumen
    2. Panorama general de data
      mining
    3. La forma en que se trabaja con
      Data Mining
    4. Aplicaciones
      de Data Mining
    5. Extensiones de
      Data Mining
    6. Conclusiones y
      perspectivas
    7. Referencias

    RESUMEN

    En los últimos años, ha existido un gran
    crecimiento en nuestras capacidades de generar y colectar
    datos, debido
    básicamente al gran poder de
    procesamiento de las máquinas
    como a su bajo costo de almacenamiento.
    Sin embargo, dentro de estas enormes masas de datos existe una
    gran cantidad de información "oculta", de gran importancia
    estratégica, a la que no se puede acceder por las técnicas
    clásicas de recuperación de la
    información.

    El descubrimiento de esta información "oculta" es
    posible gracias a la Minería de
    Datos (Data Mining), que entre otras sofisticadas
    técnicas aplica la inteligencia
    artificial para encontrar patrones y relaciones dentro de los
    datos permitiendo la creación de modelos, es
    decir, representaciones abstractas de la realidad, pero es el
    descubrimiento del conocimiento
    (KDD, por sus siglas en inglés)
    que se encarga de la preparación de los datos y la
    interpretación de los resultados obtenidos,
    los cuales dan un significado a estos patrones
    encontrados.

    Así el valor real de
    los datos reside en la información que se puede extraer de
    ellos, información que ayude a tomar decisiones o mejorar
    nuestra comprensión de los fenómenos que nos
    rodean. Hoy, más que nunca, los métodos
    analíticos avanzados son el arma secreta de muchos
    negocios
    exitosos.

    Empleando métodos analíticos avanzados
    para la explotación de datos, los negocios incrementan sus
    ganancias, maximizan la eficiencia
    operativa, reducen costos y mejoran
    la satisfacción del cliente.

    El presente trabajo
    enfatiza el uso del Data Mining para el descubrimiento del
    conocimiento y su uso predominante en nivel empresarial, a fin de
    contribuir en la toma de
    decisiones tácticas y estratégicas en una
    organización proporcionando un sentido
    automatizado para la generación de
    conocimiento.

    Vimos cual es la relación entre Data
    Mining
    y un Data Warehouse, conocimos lo más
    relevante sobre el proceso de
    Data Warehousing y como esta inmerso el Data Mining
    sobre su arquitectura.
    Así mismo, presentamos algunas fases generales y otras un
    poco más específicas sobre como implementar un
    proyecto
    Data Mining.

    También conocimos cuales son las diferencias
    entre Data Mining y los procesos de
    estadística, a pesar de que son ramas con
    notables diferencias, ambas pueden complementarse en sus procesos
    de toma de decisiones y presentación de
    resultados.

    Se incluyeron aplicaciones de Data Mining en
    varias áreas además de la empresarial y se da a
    conocer de forma muy general el alcance que tiene el utilizar un
    proceso de este tipo. Además, hablamos de algunas herramientas
    de distribución libre y algunas comerciales
    que son empleadas para emprender proyectos de Data
    Mining.

    Conocimos dos extensiones de Data Mining, Web Mining y
    Text Mining, finalmente dimos algunos puntos de vista,
    comentarios y opiniones sobre lo que es Data Mining y lo que se
    espera de esta tecnología en los
    próximos años.

    INTRODUCCIÓN.

    Desde épocas remotas la humanidad se ha
    preocupado por la creación de bienes con el
    mínimo de recursos.
    Distintos pueblos y en distintos períodos se practicaban
    la previsión, planeación
    y organización de grupos para
    ejercitar diversas actividades (entre ellas la pesca,
    agricultura,
    el comercio, la
    guerra, etc.).
    En años más recientes durante la revolución
    industrial se pusieron en práctica ideas que sirvieron
    para la creación de la
    administración, ya que durante ese tiempo se
    pensó en la manera de producir más con menos
    recursos. A partir de ese momento precursores e idealistas fueron
    sentando las bases para la creación de la administración convirtiéndola en una
    ciencia. La
    humanidad ha utilizado varias formas para llevar a cabo
    transacciones de los bienes, tal es el caso de los antiguos
    pueblos al utilizar monedas de metal con diferentes insignias,
    descripciones y denominaciones para el intercambio de
    artículos o servicios.

    Todo esto nos lleva a decir que es necesario conocer las
    herramientas y hacer buen uso de ellas para que una empresa pueda
    evaluar planes, decisiones, políticas,
    procedimientos
    y en general todo lo concerniente a ella, entre estas
    herramientas podemos hablar de: herramientas contables,
    financieras, matemáticas, economía y de
    información.

    El mundo experimenta cambios fundamentales. Los
    continuos avances en tecnología de computadoras y
    comunicaciones
    tienen un fuerte impacto sobre la forma en que las personas
    trabajan. La tecnología y las expectativas de las personas
    que la utilizan están modificando gradualmente las
    características de los sistemas de
    información. Actualmente la economía de muchas
    empresas y
    países está basada en la información,
    más en la tecnología de sistemas de
    información que sobre las máquinas y productos no
    relacionados con ella. El desarrollo de
    los sistemas de información juega en este tiempo un papel
    muy valioso dentro de las organizaciones.
    En la era industrial lo más importante era el uso del
    capital y
    recursos tangibles para generar nuevos productos. Actualmente los
    recursos básicos son las ideas y el uso de
    información
    . El empleo
    estratégico de la información continuará
    creando en todas las empresas y organizaciones nuevas
    oportunidades.[13]

    Para desarrollar un sistema de
    información se necesita tecnología y gente,
    desde los usuarios de la información, pasando por los
    operadores, capturistas de datos y analistas de sistemas, hasta
    llegar a los niveles directivos de toda la
    organización. Los primeros programadores de
    computadoras desarrollaban aplicaciones que satisfacían
    vagamente los requerimientos de información de los
    usuarios finales. Ahora, gracias a las herramientas de hardware y software con las que se
    cuenta es mucho más fácil obtener la
    información necesaria y a tiempo. Una de estas
    herramientas son los Sistemas Administradores de Bases de
    Datos(DBMS, por sus siglas en inglés), pero vayamos
    más haya, ¿qué sucedería si adoptamos
    herramientas o técnicas de bases de datos que "nos digan
    qué hacer" según las información que ellas
    presentan?, esto nos conduce a hablar de Data
    Mining
    o Minería de Datos.

    Mientras que la innovación y la originalidad son
    habilidades fundamentales para la supervivencia de las empresas,
    su éxito y
    prosperidad depende también de decisiones eficientes y
    competitivas que deben ser tomadas en cortos intervalos de
    tiempo. Para tomar decisiones, es fundamental contar con
    información de calidad. Hoy en
    día, el nivel gerencial cuenta con una eficaz herramienta
    para lograr ese objetivo: las
    técnicas de Data Mining.

    Con respecto a los nuevos usos de las bases de datos, el
    Data Mining aparece como uno de los más
    prometedores, unido y fuertemente relacionado con los problemas
    asociados a los grandes almacenes de
    datos llamados Data Warehouses. La
    relación entre el costo de los ordenadores y la atención humana ha cambiado
    sustancialmente. El recurso más precioso es el factor
    humano y los ordenadores deben potenciarlo. Esto plantea una
    nueva filosofía de acceso a la información donde
    los ordenadores deben analizar los datos, resumirlos,
    organizarlos y resolver cuestiones mucho más complejas que
    las actuales, ofreciendo al usuario la información que
    realmente le interesa. Este proceso, como se verá a lo
    largo de este trabajo, esta muy ligado a cuestiones de Data
    Mining
    y Data Warehause.

    Por el momento solo diremos que Data Mining es la
    integración de un conjunto de áreas
    que tienen como propósito la identificación de un
    conocimiento obtenido a partir de las bases de datos que aporten
    un sesgo hacia la toma de decisiones, en el transcurso de este
    trabajo detallaremos esto y será de una forma más
    comprensible. Las técnicas de Data Mining son el
    resultado de un largo proceso de investigación y desarrollo de productos.
    Esta evolución comenzó cuando los datos
    de negocios fueron almacenados por primera vez en computadoras, y
    continuó con mejoras en el acceso a los datos, y
    más recientemente con tecnologías generadas para
    permitir a los usuarios navegar a través de los datos en
    tiempo real. Data Mining toma este proceso de
    evolución más allá del acceso y
    navegación retrospectiva de los datos, hacia la entrega de
    información prospectiva y proactiva. Data Mining
    está listo para su aplicación en la comunidad de
    negocios porque está soportado por tres tecnologías
    que ya están suficientemente maduras:

    • Recolección masiva de datos.
    • Potentes computadoras con
      multiprocesadores.
    • Algoritmos de Data Mining.

    Las bases de datos comerciales están creciendo a
    un ritmo sin precedentes. Un reciente estudio del META GROUP
    sobre los proyectos de Data Warehouse encontró que
    el 19% de los que contestaron están por encima del nivel
    de los 50 Gigabytes. En algunas industrias, tales
    como ventas al por
    menor (retail), estos números pueden ser aún
    mayores. MCI Telecommunications Corp. cuenta con una base de datos
    de 3 terabytes + 1 terabyte de índices y overhead
    corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
    computacionales mejorados puede ahora alcanzarse de forma
    más costo-efectiva con tecnología de computadoras
    con multiprocesamiento paralelo. Los algoritmos de
    Data Mining utilizan técnicas que han existido por
    lo menos desde hace 10 años, pero que sólo han sido
    implementadas recientemente como herramientas maduras,
    confiables, entendibles que consistentemente son más
    performantes que métodos estadísticos
    clásicos.

    En la evolución desde los datos de negocios a
    información de negocios, cada nuevo paso se basa en el
    previo. Por ejemplo, el acceso a datos dinámicos es
    crítico para las aplicaciones de navegación de
    datos (drill through applications), y la habilidad para
    almacenar grandes bases de datos es crítica
    para Data Mining.

    Los componentes esenciales de la tecnología de
    Data Mining han estado bajo
    desarrollo por décadas, en áreas de
    investigación como estadísticas, inteligencia
    artificial y aprendizaje de
    máquinas. Hoy, la madurez de estas técnicas, junto
    con los motores de bases de datos relacionales de alta
    performance, hicieron que estas tecnologías fueran
    prácticas para los entornos de Data Warehouse
    actuales.

    La idea de Data Mining no es nueva. Desde los
    años sesenta los estadísticos manejaban
    términos como Data Fishing, Data Mining o
    Data Archaeology con la idea de encontrar correlaciones
    sin una hipótesis previa en bases de datos con
    ruido. A
    principios de
    los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert
    Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a
    consolidar los términos de Data Mining y KDD
    (Knowledge Discovery in Databases, Descubrimiento de
    Conocimiento en Bases de Datos). A finales de los años
    ochenta sólo existían un par de empresas dedicadas
    a esta tecnología; en 2002 ya había más de
    100 empresas en el mundo que ofrecen alrededor de 300 soluciones.
    Las listas de discusión sobre este tema las forman
    investigadores de más de ochenta países. Esta
    tecnología ha sido un buen punto de encuentro entre
    personas pertenecientes al ámbito académico y al de
    los negocios.[20]

    El presente trabajo tiene como finalidad dar a conocer
    una perspectiva general acerca de todo lo referente a la teoría
    de Data Mining, existen técnicas de
    implantación de Data Mining, algoritmos, reglas,
    etc., de las cuales no daremos mayor detalle, ya que no se
    encuentran como un objetivo de este documento, solo se
    mencionarán como la base teórica de la
    Minería de Datos. Lo que sí perseguimos de manera
    específica es dejar en claro qué es el concepto de
    Data Mining, sus expectativas o finalidades, dar a conocer
    sus cimientos y a qué nos llevan todos ellos, sus posibles
    aplicaciones y cómo se esta usando actualmente en algunas
    áreas, principalmente en el nivel empresarial. Aquí
    cabe mencionar que Data Mining es un proceso utilizado
    frecuentemente en macro empresas, sin embargo, también es
    utilizado en las llamadas Pymes (Pequeñas Y
    Medianas EmpresaS) y además a nivel científico,
    aunque con menor frecuencia, es por ello que nos hemos enfocado
    sobre todo a la utilización de dicho proceso en las
    empresas grandes y cómo es que funciona en ellas,
    aún así, creímos conveniente introducir
    algunos ejemplos de su uso en otros entornos.

    El primer capítulo, Panorama general de Data
    Mining
    comienza con un ejemplo introductorio para dar una
    idea general del por qué es necesario utilizar Data
    Mining
    en ciertos casos, esto nos lleva a dar un paso previo
    antes de conocer exactamente qué es Data Mining,
    Data Warehouse: un paso antes de Data Mining nos menciona
    qué relación hay entre Data Warehouse y
    Data Mining, es importante entender este concepto ya que
    podríamos decir que es una de las principales bases de la
    Minería de Datos, finalmente el capítulo nos dice
    lo que en realidad es Data Mining, sus objetivos y
    algunas formas generales de su utilización.

    La forma en qué trabaja Data Mining, el
    capítulo número dos, menciona, de forma muy general
    como es que está constituido Data Mining,
    cuál es su arquitectura, la forma en que se implementa y
    las fases que se siguen para una buena implantación de un
    proyecto de Data Mining, como bien lo hemos mencionado
    anteriormente, este no es un trabajo para describir
    detalladamente las técnicas de la Minería de Datos,
    por ello cabe aclarar que este capítulo tiene un enfoque
    teórico básico.

    Los dos primeros capítulos nos sirven para
    entender básicamente cuáles podrían ser las
    aplicaciones de Data Mining, el tercer capítulo
    Aplicaciones de Data Mining nos da varios ejemplos de
    dónde y cómo puede ser utilizado este proceso y
    cuáles son sus ventajas en estas áreas de
    aplicación (principalmente en nivel
    empresarial).

    El capítulo número cuatro, Extensiones
    de Data Mining
    , abordamos dos temas complementarios que
    también se utilizan como procesos de Data Mining, a
    saber, el Web Mining y el Text Mining. Estos temas
    también los podríamos ver como una
    aplicación de Data Mining, sin embargo, los hemos
    colocado en un capítulo aparte ya que están
    considerados como un campo diferente, esto es, aplicaciones
    vistas como un meta Data Mining.

    Finalmente, el último capítulo,
    Conclusiones y perspectivas, damos nuestras conclusiones y
    algunos puntos de vista particulares, mencionamos cuáles
    son las oportunidades que existen para trabajar en proyectos de
    este tipo y qué es lo que se espera de Data Mining
    en los próximos años.

    Hemos incluido también un Resumen de todo
    lo abordado durante nuestro documento que contempla los aspectos
    más importantes aquí tratados.

    En la bibliografía podrá encontrar las
    direcciones http de donde se tomaron muchos de los
    aspectos mencionados en el transcurso de este trabajo; cuando
    coloquemos un número, por ejemplo [2], al final de
    un párrafo
    o cualquier sentencia, estamos haciendo referencia al
    número de artículo de internet mencionado en la
    bibliografía de donde fue tomado dicho párrafo o
    sentencia.

    CAPITULO I

    PANORAMA GENERAL DE
    DATA MINING.

    En este capítulo abordamos los conceptos
    fundamentales relacionados con Data Mining que nos
    ayudarán a tener, sobre todo, una idea general de
    él y además nos auxiliarán para entender los
    siguientes capítulos. Comenzamos con un ejemplo
    introductorio en la sección 1.1, Ejemplo de un problema
    asociado a Data Mining
    donde pretendemos dar a conocer una
    aplicación muy simple de Data Mining. Continuamos
    con el apartado 1.2, Data Warehouse: Un paso antes de Data
    Mining
    ya que creemos conveniente tener las nociones
    adecuadas de este tema que se relaciona fuertemente con Data
    Mining
    y del cuál haremos mención en el resto
    de este trabajo. Finalmente, en la sección 1.3,
    ¿Qué es Data Mining? explicamos de la forma
    que creímos útil el concepto real de Data
    Mining
    , sus objetivos y una forma breve de cómo y
    dónde se trabaja con él.

    1.1. Ejemplo de un problema asociado a Data
    Mining
    . [18]

    Para poder generar una idea general del significado y
    aplicación de Data Mining, consideremos el
    siguiente problema:

    Suponga que usted es el gerente de
    mercadeo para
    una compañía de telefonía
    celular. El problema considera lo siguiente:

    • La deserción de clientes es muy
      alta.
    • La producción(después de que el
      contrato
      expira) es del 40%.
    • Los clientes reciben un teléfono de regalo con el
      contrato.
    • Usted paga una comisión de ventas por
      contrato.
    • Se le da un teléfono nuevo a cada persona cuyo
      contrato ha expirado, lo cual es muy caro y por ende poco
      rentable para la compañía.
    • Traer de regreso a un cliente después de que
      se va es difícil y caro.

    1.1.1. Posible solución al problema de
    ejemplo.

    • Se debe predecir qué clientes
      abandonarán la compañía tres meses antes
      de que el contrato expire.
    • Si queremos conservar a un cliente que creamos
      abandonará la empresa, se
      le debería ofrecer un nuevo teléfono.
    • No hay que prestarle atención a los clientes
      que tienen altas posibilidades de quedarse en la empresa.
    • Si hay clientes que no deseamos conservar,
      simplemente no hacemos nada.

    Pues bien, es muy fácil pretender hacer todo lo
    mencionado antes, pero ahora la pregunta es ¿cómo
    lo hacemos?. No podemos tomar decisiones a la ligera, ni tomar
    medidas de las cuales estamos seguros que
    fallarán, por ejemplo, suena absurdo, en cuestiones como
    éstas, recurrir a la lectura del
    Tarot. La
    solución debe basarse en algo más formal y
    coherente y una de esas alternativas es Data
    Mining.

    1.1.2. Solución del problema ejemplo a
    través de Data Mining.

    La solución que puede dar Data Mining al
    ejemplo del problema mencionado en esta sección considera
    lo siguiente:

    • Interactuar dinámicamente con el
      cliente.
    • Trabajar hacia delante y no hacia
      atrás.
    • Mejorar la calidad de la interacción.
    • ¿El cliente quiere interactuar?
      • La línea de ganancias se
        salva.
    • Optimizar el tiempo de
      interacción.
      • Aumentar el valor del cliente
        constantemente.
      • Aumentar el valor de vida del
        cliente.

    En esta sección hemos visto solo un ejemplo
    introductoria, en las secciones subsecuentes trataremos otros
    casos e iremos explicando como es que Data Mining ofrece
    soluciones a problemas de empresas.

    1.2. Data Warehouse: Un paso antes de Data
    Mining
    .

    Antes de dar a conocer claramente lo que significa
    Data Mining es preciso dejar en claro lo que es un Data
    Warehouse
    que en principio lo podemos ver como un concepto
    que esta antes de Data Mining y es la base de este (aunque
    no siempre es así), por ello el objetivo de esta
    sección es dar una idea general a este concepto, no
    entraremos en muchos detalles, pero daremos a conocer lo
    más relevante para que en las secciones siguientes, cuando
    hablemos de Data Warehouse o Data Warehousing no
    haya dudas sobre lo que nos estamos refiriendo.

    Las Bases de Datos (BD) de una empresa utilizan los
    ordenadores como medio para organizar sus datos de forma que sean
    comprensibles para las personas. Este proceso es conocido como
    Data Warehousing. La comprensión de los datos
    almacenados es esencial para cualquier organización, ya
    que constituye un elemento básico en la toma de
    decisiones.

    Un Data Warehouse es un almacén o
    repositorio de datos categorizados, que concentra un gran
    volumen de
    información de interés
    para toda una organización, la cual se distribuye por
    medio de diversas herramientas de consulta y de creación
    de informes
    orientadas a la toma de decisiones. El objetivo del Data
    Warehouse
    (DW) es agrupar los datos con el propósito
    de facilitar su posterior análisis, de forma que sean fáciles
    de acceder y, posteriormente, analizar información sobre
    la propia empresa. A este tipo de datos se les conoce como
    informativos. Los sistemas que manejan estos datos se
    denominan OLAP (Online Analytical Processing).
    Existe muchas definiciones formales de DW de distintos autores,
    pero una de las mas famosas puede ser la dada por Inmon en 1992:
    Un Data Warehouse es
    una colección de datos orientados a temas, integrados,
    no-volátiles y variante en el tiempo, organizados para
    soportar necesidades empresariales
    .

    Los Data Warehouses a menudo almacenan gran
    cantidad de información, la cual está a veces
    subdividida en pequeñas unidades lógicas.
    Periódicamente, se importan estos datos de otros sistemas
    de información dentro del Data Warehouse, para
    realizar sobre ellos un procesamiento posterior. Un Data
    Warehouse se diferencia de una Base de Datos operacional
    de una empresa, diremos que un Data Warehouse puede
    derivarse de la Base de Datos corporativa, mediante la importación de información, pero el
    DW no es esa BD operacional.[7]

    Muchos de los datos de una empresa se utilizan como
    soporte a los negocios, por eso a este tipo de datos se les
    denomina operacionales. Los sistemas usados con el fin de
    recogerlos reciben el nombre de OLTP (Online
    Transaction Processing
    ).[10]

    Las principales características o propiedades de
    un DW son las siguientes:

    • El DW está orientado a la toma de decisiones.
      Un buen diseño de la base de datos favorece el
      análisis y la recuperación de datos para obtener
      una ventaja estratégica y para facilitar las decisiones
      de marketing.
    • El DW almacena datos categorizándolos o
      estructurándolos de forma que favorezcan el
      análisis de los datos y puedan proporcionar
      análisis históricos.
    • El DW no está orientado a procesos
      relacionados con la operativa de la empresa, es decir, que solo
      esta destinado a funcionar como un "almacén de
      datos".
    • El DW está preparado para ser explotado
      mediante herramientas específicas que permiten la
      extracción de información significativa y
      patrones de comportamiento que permanecen ocultos en un
      enorme repositorio de datos. Esta explotación de los
      datos se suele realizar con herramientas de Data
      Mining
      .

    1.2.1. Software para un Data
    Warehouse
    .[10]

    La información estratégica se almacena en
    Gigabytes(tal vez más) de datos de marketing. En este caso
    se necesita software especializado que permita capturar los datos
    relevantes en forma rápida. El software no debería
    limitarse únicamente al acceso a los datos, sino
    también, al análisis significativo de los datos,
    esto es, transformar los datos de la información cruda o
    no procesada, en información útil para la
    empresa.

    El software o herramientas de negocios inteligentes se
    colocan sobre la plataforma Data Warehousing y proveen
    este servicio.
    Debido a que son el punto principal de contacto entre la
    aplicación del depósito y la gente que lo usa,
    estas herramientas pueden constituir la diferencia entre el
    éxito o fracaso de un depósito.

    Las herramientas de negocio inteligentes se han
    convertido en los sucesores de los sistemas de soporte de
    decisión, pero tienen un alcance más amplio. No
    solamente ayudan en las decisiones de soporte sino, en muchos
    casos, estas herramientas soportan muchas funciones
    operacionales y de misión-crítica de la
    compañía. Sin embargo, estos productos no son
    infalibles ya que sólo se consigue el máximo
    provecho del Data Warehouse, si eligen las herramientas
    adecuadas a las necesidades de cada usuario final.

    Una de estas herramientas es Data Mining, sin
    embargo, hay otras que no mencionaremos ya que se encuentran
    fuera de los objetivos de este trabajo. El proceso de Data
    Mining
    extrae los conocimientos guardados o
    información predictiva desde el Data Warehouse sin
    requerir pedidos o preguntas específicas. Data
    Mining
    usa algunas de las técnicas de computación más avanzadas para
    generar modelos y asociaciones como redes neurales,
    detección de desviación, modelado predictivo y
    programación genética.

    1.2.2. Ventajas y Desventajas del Data
    Warehouse
    .

    La utilización de Data Warehouse
    proporciona una serie de ventajas:

    • Proporciona un gran poder de procesamiento de
      información.
    • Permite una mayor flexibilidad y rapidez en el acceso
      a la información.
    • Facilita la toma de decisiones en los
      negocios.
    • Las empresas obtienen un aumento de la productividad.
    • Proporciona una comunicación fiable entre todos los
      departamentos de la empresa.
    • Mejora las relaciones con los proveedores
      y los clientes.
    • Permite conocer qué está pasando en el
      negocio, es decir, estar siempre enterado de los buenos y malos
      resultados.
    • Transforma los datos en información y la
      información en conocimiento.
    • Permite hacer planes de forma más
      efectiva.
    • Reduce los tiempos de respuesta y los costes de
      operación.

    Resumiendo, el Data Warehouse proporciona una
    información de gestión
    accesible, correcta, uniforme y actualizada. Proporciona un menor
    coste en la toma de decisiones, una mayor flexibilidad ante el
    entorno, un mejor servicio al
    cliente y permite el rediseño de los
    procesos.

    Pero los Data Warehouse también tienen
    algunas desventajas:

    • Requieren una revisión del modelo de
      datos, objetos, transacciones y además del
      almacenamiento.
    • Tienen un diseño complejo y
      multidisciplinar.
    • Requieren una reestructuración de los sistemas
      operacionales.
    • Tienen un alto coste.
    • Requieren sistemas, aplicaciones y almacenamiento
      específico.

    Por último, cabe mencionar la existencia del
    Data Marts (Mercado de Datos)
    que es una versión más reducida de un Data
    Warehouse
    , a menudo conteniendo información
    específica de algún departamento, como marketing,
    finanzas o
    mantenimiento
    de la red. Idealmente,
    el Data Marts debería ser un subconjunto del
    Data Warehouse, a fin de mantener consistencia en las
    prácticas de administración de datos corporativos y para
    mantener la seguridad y la
    integridad de la información cruda que se está
    usando. Para las grandes compañías, el Data
    Marts
    usualmente contiene una docena de gigabytes de datos.
    Ahora podemos continuar y dar una explicación de lo que en
    realidad es Data Mining, a pesar de que en este apartado
    hemos dado una definición de manera somera.

    1.3. ¿Qué es Data
    Mining
    ?[14]

    Cada día generamos una gran cantidad de
    información, algunas veces conscientes de que lo hacemos y
    otras veces inconscientes de ello porque lo desconocemos. Nos
    damos cuenta de que generamos información cuando
    registramos nuestra entrada en el trabajo,
    cuando entramos en un servidor para ver
    nuestro correo, cuando pagamos con una tarjeta de crédito
    o cuando reservamos un boleto de avión. Otras veces no nos
    damos cuenta de que generamos información, como cuando
    conducimos por una vía donde están contabilizando
    el número de automóviles que pasan por minuto,
    cuando se sigue nuestra navegación por Internet o cuando
    nos sacan una fotografía
    del rostro al haber pasado cerca de una oficina
    gubernamental.

    ¿Con qué finalidad queremos generar
    información? Son muchos los motivos que nos llevan a
    generar información, ya que nos pueden ayudar a controlar,
    optimizar, administrar, examinar, investigar, planificar,
    predecir, someter, negociar o tomar decisiones de cualquier
    ámbito según el dominio en que
    nos desarrollemos. La información por sí misma
    está considerada un bien patrimonial. De esta forma, si
    una empresa tiene una pérdida total o parcial de
    información provoca bastantes perjuicios. Es evidente que
    la información debe ser protegida, pero también
    explotada.

    ¿Qué nos ha permitido poder generar tanta
    información? En los últimos años, debido al
    desarrollo tecnológico a niveles exponenciales tanto en el
    área de cómputo como en la de transmisión de
    datos, ha sido posible que se gestionen de una mejor manera el
    manejo y almacenamiento de la información. Sin duda
    existen cuatro factores importantes que nos han llevado a este
    suceso:

    1. El abaratamiento de los sistemas de almacenamiento
      tanto temporal como permanente.
    2. El incremento de las velocidades de cómputo en
      los procesadores.
    3. Las mejoras en la confiabilidad y aumento de la
      velocidad en
      la transmisión de datos.
    4. El desarrollo de sistemas administradores de bases de
      datos más poderosos.

    Actualmente todas estas ventajas nos han llevado a
    abusar del almacenamiento de la información en las bases
    de datos. Podemos decir que algunas empresas almacenan un cierto
    tipo de datos al que se ha denominado dato-escritura, ya
    que sólo se guarda (o escribe) en el disco duro,
    pero nunca se hace uso de él. Generalmente, todas las
    empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer
    consultas dirigidas. Un nuevo tipo de dato al cual se ha llamado
    dato-escritura-lectura-análisis es el que proporciona
    en conjunto un verdadero conocimiento y nos apoya en las tomas de
    decisiones. Es necesario contar con tecnologías que nos
    ayuden a explotar el potencial de este tipo de datos. La cantidad
    de información que nos llega cada día es tan
    inmensa que nos resulta difícil asimilarla. Basta con ir
    al buscador AltavistaÓ y solicitar la palabra
    information para ver que existen 171.769.416 sitios donde
    nos pueden decir algo al respecto. Suponiendo que nos tomemos un
    minuto para ver el contenido de cada página,
    tardaríamos entonces 326 años en visitarlas todas.
    Esto es imposible, y, por lo tanto, existe una clara necesidad de
    disponer de tecnologías que nos ayuden en nuestros
    procesos de búsqueda y, aún más, de
    tecnologías que nos ayuden a comprender su
    contenido.

    Como bien sabemos, algunos sistemas producen una
    cantidad inmensa de datos; estos datos con frecuencia contienen
    valiosa información que puede resultar muy útil y
    ser vista como vetas de oro por los
    ojos de un ejecutivo de una corporación. Las dimensiones
    de las base de datos grandes (montañas) y sus velocidades
    de crecimiento, hacen muy difícil para un humano su
    análisis y la extracción de alguna
    información importante (oro). Aún con el uso de
    herramientas estadísticas clásicas esta tarea es
    casi imposible.

    El Data Mining surge como una tecnología
    que intenta ayudar a comprender el contenido de una base de
    datos. De forma general, los datos son la materia prima
    bruta, en el momento que el usuario les atribuye algún
    significado especial pasan a convertirse en información.
    Cuando los especialistas elaboran o encuentran un modelo,
    haciendo que la interpretación del confronto entre la
    información y ese modelo represente un valor agregado,
    entonces nos referimos al conocimiento. En la figura 1.1 se
    ilustra la jerarquía que existe en una base de datos entre
    dato, información y conocimiento. Se observa igualmente el
    volumen que presenta en cada nivel y el valor que los
    responsables de las decisiones le dan en esa jerarquía. El
    área interna dentro del triángulo representa los
    objetivos que se han propuesto. La separación del
    triángulo representa la estrecha unión entre dato e
    información, no así entre la información y
    el
    conocimiento. El Data Mining trabaja en el nivel
    superior buscando patrones, comportamientos, agrupaciones,
    secuencias, tendencias o asociaciones que puedan generar
    algún modelo que nos permita comprender mejor el dominio
    para ayudar en una posible toma de decisión.

    Figura 1.1. Relación entre
    Dato, Información y conocimiento.

    El descubrimiento de conocimiento en base de datos (KDD,
    de Knowledge Discovery in Databases) combina las
    técnicas tradicionales con numerosos recursos
    desarrollados en el área de la inteligencia artificial. En
    estas aplicaciones el término "Minería de Datos"
    (Data Mining) ha tenido más aceptación. En algunos
    casos las herramientas provenientes de la inteligencia artificial
    son nuevas, no del todo comprendidas y carentes de un soporte
    teórico formal. Pero en este caso el objetivo es tan
    valioso, que los resultados prácticos han rebasado a la
    elegancia académica.

    Con todo lo anterior podemos decir que Data Mining es
    el proceso de descubrir patrones de información
    interesante y potencialmente útiles, inmersos en una gran
    base de datos en la que se interactúa constantemente
    .
    Data Mining es una combinación de procesos
    como:

    • Extracción de datos
    • Limpieza de datos.
    • Selección de
      características.
    • Algoritmos.
    • Análisis de resultados.

    Las herramientas de Data Mining exploran gran
    cantidad de datos dentro de una BD grande, y mediante su
    análisis predicen posibles tendencias o comportamientos
    futuros entro de una empresa, permitiendo al experto tomar
    decisiones en los negocios de una forma rápida y
    utilizando un conocimiento que de otra forma no habría
    encontrado. Mediante la utilización de estas herramientas
    se pueden generar nuevas oportunidades de negocio. Algunas
    posibilidades que ofrecen estas herramientas son:

    • Predicción automatizada de tendencias y
      comportamientos.
    • Descubrimiento automatizado de modelos
      desconocidos.
    • Descubrimiento de anomalías y acciones
      fraudulentas por parte de clientes.

    Este producto esta
    fuertemente relacionado con análisis estadísticos,
    el objetivo de generar hipótesis
    potenciales de interés que son posteriormente verificadas
    (Vea la figura 1.2.).

    Figura 1.2.

    Encontrar patrones significativos en todos los datos
    puede proporcionar una ventaja competitiva a cualquier
    organización.

    Otra definición que se puede dar de Data
    Mining
    y que es muy común encontrar dice: "Una
    actividad de extracción cuyo objetivo es el de descubrir
    hechos contenidos en las bases de datos"
    . En la
    mayoría de los casos se refiere a un trabajo automatizado.
    Si hay alguna intervención humana a lo largo del proceso,
    este no es considerado como minería de datos por parte
    algunas personas. La palabra descubrimiento está
    relacionada con el hecho de que mucha de la información
    valiosa es desconocida con anterioridad. En todo caso, estas
    técnicas pueden ayudar a confirmar cualquier sospecha
    sobre el comportamiento del sistema en un
    particular contexto. En cuanto a los hechos escondidos, estos
    estarán principalmente bajo la forma de reglas las cuales
    nos ayudarán a entender el modelo del sistema relacionado
    con los datos observados. Por otra parte, las reglas
    también pueden ser usadas en la predicción de
    ciertos estado del sistema (lo que se busca).

    Desde un punto de vista académico el
    término Data Mining es una etapa dentro de un
    proceso mayor llamado KDD. Lo que en verdad hace el Data
    Mining
    es reunir las ventajas de varias áreas como la
    Estadística, la Inteligencia Artificial, la
    Computación Gráfica, las Bases de Datos y el
    Procesamiento Masivo, principalmente usando como materia prima
    las bases de datos.

    El Data Mining es una tecnología compuesta
    por etapas que integra varias áreas y que no se debe
    confundir con un gran software. Durante el desarrollo de un
    proyecto de este tipo se usan diferentes aplicaciones software en
    cada etapa que pueden ser estadísticas, de
    visualización de datos o de inteligencia artificial,
    principalmente. Actualmente existen aplicaciones o herramientas
    comerciales de Data Mining muy poderosas que contienen un
    sinfín de utilerías que facilitan el desarrollo de
    un proyecto. Sin embargo, casi siempre acaban
    complementándose con otra herramienta.[19]

    1.3.1. ¿Dónde se utiliza Data
    Mining?

    La utilidad de Data
    Mining se puede dar dentro de los siguientes aspectos:

    • Sistemas parcialmente desconocidos: Si el
      modelo del sistema que produce los datos es bien conocido,
      entonces no necesitamos de la minería de datos ya que
      todas las variables
      son de alguna manera predecibles. Este no es el caso del
      comercio electrónico, debido a los efectos del comportamiento
      humano, el clima y de
      decisiones políticas entre otros. En estos casos
      habrá una parte del sistema que es conocida y
      habrá una parte aparentemente de naturaleza
      aleatoria. Bajo ciertas circunstancias, a partir de una gran
      cantidad de datos asociada con el sistema, existe la
      posibilidad de encontrar nuevos aspectos previamente
      desconocidos del modelo.
    • Enorme cantidad de datos: Al contar con mucha
      información en algunas bases de datos es importante para
      una empresa encontrar la forma de analizar "montañas" de
      información (lo que para un humano sería
      imposible) y que ello le produzca algún tipo de
      beneficio.
    • Potente hardware y software: Muchas de las
      herramientas presentes en la minería de datos
      están basadas en el uso intensivo de la
      computación, en consecuencia, un equipo conveniente y un
      software eficiente, con el cual cuente una
      compañía, aumentará el desempeño del proceso de buscar y
      analizar información, el cual a veces debe
      vérselas con producciones de datos del orden de los
      Gbytes/hora (repetimos, algo humanamente imposible). Por
      ejemplo, las técnicas de Data Mining son
      utilizadas habitualmente para el análisis y
      explotación de datos de un Data
      Warehouse
      (véase la sección 1.2). El uso del
      Data Mining puede ser provechoso en el caso de poseer un
      Data Warehouse que contenga datos sobre sus procesos
      productivos, datos de seguimiento de clientes, datos externos
      de mercado, datos sobre la actividad de competidores,
      etc.

    Una vez que las herramientas de Data Mining fueron
    implementadas en computadoras cliente servidor de alto
    rendimiento o de procesamiento paralelo, pueden analizar bases de
    datos masivas para brindar respuesta a preguntas tales como,
    ¿cuales clientes tienen mas probabilidad de
    responder al próximo envío de correo promocional, y
    por qué? y presentar los resultados en formas de tablas,
    con gráficas, reportes, texto,
    hipertexto, etc.

    Un ejemplo trivial de minería de datos, es su uso
    en un departamento de ventas. Si una tienda registra las ventas
    de un cliente y es sabido que ese cliente compra muchas camisas
    de seda, el sistema de Data Mining hará una
    correlación entre ese cliente y las camisas de seda. El
    departamento de compras
    mirará la información y realizará
    envíos de información sobre camisas de seda a ese
    cliente, o a todos los clientes que sigan ese modelo obtenido. En
    este caso el sistema de Data Mining es usado para recoger
    o extraer información nueva sobre los clientes, la cual
    estaba oculta anteriormente.

    El Data Mining también es fundamental en
    la investigación científica y
    técnica, como herramienta de análisis y
    descubrimiento de conocimiento a partir de datos de observación o de resultados de experimentos.

    1.3.2. Los objetivos principales de Data
    Mining.

    Data Mining persigue ciertos objetivos de manera
    especifica, a saber:

    • Descripción: El principal producto del
      proceso de la minería de datos es el descubrimiento de
      reglas. Estas mostrarán nuevas relaciones entre las
      variables o excepciones de acuerdo a la empresa en que se
      utilice este proceso. Ello enriquecerá el
      análisis y la descripción de la forma en que trabaja
      una compañía y ayudará en la planificación y en el diseño de
      futuros cambios. Es posible que algunas de las reglas
      descubiertas no puedan ser cambiadas, pero si resulte posible
      realizar modificaciones apropiadas en la organización
      con el propósito de mejorar su
      desempeño.
    • Predicción (Forecasting): Una
      vez descubiertas reglas importantes, estas pueden ser
      utilizadas pera estimar algunas variables de salida. Puede ser
      en el caso de secuencias en el tiempo, o bien en la
      identificación e interrupción a tiempo, de una
      futura mala experiencia de crédito. En esta tarea, se
      complementan las técnicas estadísticas
      tradicionales con aquellas provenientes de la inteligencia
      artificial. Conceptos adaptativos como los algoritmos
      genéticos y las redes
      neuronales, permiten realizar predicciones más
      acertadas, especialmente en casos de gran complejidad y con
      relaciones internas.

    1.3.3. Algunas herramientas utilizadas en Data Mining
    de la Inteligencia artificial.

    • Redes Neuronales (Neural Networks):
      Grupo de
      unidades interconectadas y organizadas por capas. Estas pueden
      ser funciones matemáticas y números almacenados
      en computadoras digitales, pero pueden ser elaboradas
      también mediante dispositivos analógicos como los
      transistores a
      efecto de campo. A pesar del incremento en velocidad y de la
      escala de
      integración en los semiconductores, la mejor contribución de
      las redes neuronales tendrá que esperar por computadoras
      más rápidas, masivas y paralelas.
    • Mapas característicos de Kohonen
      (Self-organizing Maps):
      Es una red neuronal donde los
      datos son mostrados a la estructura y
      esta se sensibiliza a los patrones presentes. Una vez entrenada
      es capaz de identificar tales patrones en nuevos
      datos.
    • Reconocimiento de patrones (Pattern
      Recognition
      ):
      Se trata de un grupo de técnicas
      orientadas a evaluar la similitud y las diferencias entre
      señales. Se involucran en esto a varios
      tipos de pre-procesamiento tales como la transformada de
      Fourier.
    • K-nearest neibor: Un procedimiento
      para clasificar a los records de un archivo
      mediante la identificación de grupos (clusters) y
      decidiendo a cual grupo pertenece cada uno de los
      records.
    • Algoritmo Genético (Genetic
      Algorithm
      ):
      Imitando la evolución de las
      especies mediante la mutación, reproducción y selección, estos algoritmos proporcionan
      programas y
      optimizaciones que pueden ser utilizados en la construcción y entrenamiento
      de otras estructuras
      como las redes neuronales.

    CAPITULO II

    LA FORMA EN QUE SE
    TRABAJA CON DATA MINING.

    El presente capítulo esta enfocado, como lo dice
    su nombre, a la forma en que se trabaja con Data Mining,
    es decir, veremos cómo es la arquitectura de Data
    Mining
    y su relación estrecha con un Data
    Warehouse
    , esto en la sección 2.1, La Arquitectura
    de Data Mining
    , y abordaremos en el apartado 2.2, Fases
    para la creación de un proyecto Data Mining
    , las cinco
    etapas que son llevadas a cabo para poner en marcha un proyecto
    de Data Mining, por supuesto que no es nuestra
    intención dar una guía detallada para poder
    realizar algo de esta naturaleza, pero sí una referencia
    adecuada, ya que en la realidad, construir un proyecto de tal
    naturaleza, y en sí un proyecto de cualquier tipo, depende
    mucho de las circunstancias reales a la cuales nos estemos
    enfrentando.

    2.1. La Arquitectura de Data Mining.
    [19]

    Dadas bases de datos de suficiente tamaño y
    calidad, la tecnología de Data Mining puede generar nuevas
    oportunidades de negocios al proveer estas
    capacidades:

    • Predicción automatizada de tendencias y
      comportamientos:
      Data Mining automatiza el proceso
      de encontrar información predecible en grandes bases de
      datos. Preguntas que tradicionalmente requerían un
      intenso análisis manual, ahora
      pueden ser contestadas directa y rápidamente desde los
      datos. Un típico ejemplo de problema predecible es el
      marketing, Data Mining usa datos en anuncios
      publicitarios anteriores para identificar posibles objetivos
      para maximizar los resultados de la inversión en futuros anuncios. Otros
      problemas predecibles incluyen pronósticos de problemas financieros
      futuros o identificar segmentos de población que probablemente respondan
      similarmente a eventos dados
      (por ejemplo, anuncios de televisión).
    • Descubrimiento automatizado de modelos previamente
      desconocidos.
      Las herramientas de Data Mining barren las
      bases de datos e identifican modelos previamente escondidos en
      un sólo paso. Otros problemas de descubrimiento de
      modelos incluye detectar transacciones fraudulentas de tarjetas de
      créditos e identificar datos anormales
      que pueden representar errores de tipeado en la carga de
      datos.

    Las técnicas de Data Mining pueden
    redituar los beneficios de automatización en las plataformas de
    hardware y software existentes y puede ser implementadas en
    sistemas nuevos a medida que las plataformas existentes se
    actualicen y nuevos productos sean desarrollados. Cuando las
    herramientas de Data Mining son implementadas en sistemas
    de procesamiento paralelo de alto performance (rendimiento),
    pueden analizar bases de datos masivas en minutos. Procesamiento
    más rápido significa que los usuarios pueden
    automáticamente experimentar con más modelos para
    entender datos complejos. La alta velocidad hace que sea
    práctico para los usuarios analizar inmensas cantidades de
    datos. Grandes bases de datos, a su vez, producen mejores
    predicciones.

    Las bases de datos pueden ser grandes tanto en
    profundidad como en ancho:

    • Más columnas. Los analistas muchas
      veces deben limitar el número de variables a examinar
      cuando realizan análisis manuales debido
      a limitaciones de tiempo. Sin embargo, variables que son
      descartadas porque parecen sin importancia pueden proveer
      información acerca de modelos desconocidos. Un Data
      Mining de alto rendimiento permite a los usuarios explorar toda
      la base de datos, sin preseleccionar un subconjunto de
      variables.
    • Más filas. Muestras mayores producen
      menos errores de estimación y desvíos, y permite
      a los usuarios hacer inferencias acerca de pequeños pero
      importantes segmentos de población.

    2.1.1. Los Modelos de Data Mining.

    ¿Cuán exactamente es capaz Data
    Mining
    de decirle cosas importantes que usted desconoce o que
    van a pasar? La técnica usada para realizar estas
    hazañas en Data Mining se llama Modelado. Modelado
    es simplemente el acto de construir un modelo en una
    situación donde usted conoce la respuesta y luego la
    aplica en otra situación de la cual desconoce la
    respuesta. Por ejemplo, si busca un galeón español
    hundido en los mares lo primero que podría hacer es
    investigar otros tesoros españoles que ya fueron
    encontrados en el pasado. Notaría que esos barcos
    frecuentemente fueron encontrados fuera de las costas de Bermuda
    y que hay ciertas características respecto de las
    corrientes oceánicas y ciertas rutas que probablemente
    tomará el capitán del barco en esa época.
    Usted nota esas similitudes y arma un modelo que incluye las
    características comunes a todos los sitios de estos
    tesoros hundidos. Con estos modelos en mano sale a buscar el
    tesoro donde el modelo indica que en el pasado hubo más
    probabilidad de darse una situación similar. Con un poco
    de esperanza, si tiene un buen modelo, probablemente
    encontrará el tesoro.

    Este acto de construcción de un modelo es algo
    que la gente ha estado haciendo desde hace mucho tiempo,
    seguramente desde antes del auge de las computadoras y de la
    tecnología de Data Mining. Lo que ocurre en las
    computadoras, no es muy diferente de la manera en que la gente
    construye modelos. Las computadoras son cargadas con mucha
    información acerca de una variedad de situaciones donde
    una respuesta es conocida y luego el software de Data
    Mining
    en la computadora
    debe correr a través de los datos y distinguir las
    características de los datos que llevarán al
    modelo. Una vez que el modelo se construyó, puede ser
    usado en situaciones similares donde usted no conoce la
    respuesta.

    Si alguien le dice que tiene un modelo que puede
    predecir el uso de los clientes, ¿Cómo puede saber
    si es realmente un buen modelo? La primera cosa que puede probar
    es pedirle que aplique el modelo a su base de clientes – donde
    usted ya conoce la respuesta. Con Data Mining, la mejor
    manera para realizar esto es dejando de lado ciertos datos para
    aislarlos del proceso de Data Mining. Una vez que el
    proceso está completo, los resultados pueden ser testeados
    contra los datos excluidos para confirmar la validez del modelo.
    Si el modelo funciona, las observaciones deben mantenerse para
    los datos excluidos.

    2.1.2. Data Mining dentro de una arquitectura
    Data Warehousing.

    Las técnicas de Data Mining son utilizadas
    habitualmente para el análisis y explotación de
    datos de un Data Warehouse. El uso del Data Mining
    puede ser provechoso por ejemplo en el caso de que una empresa
    posea un Data Warehouse que contenga datos sobre sus
    procesos productivos, datos de seguimiento de clientes, datos
    externos de mercado, datos sobre la actividad de competidores,
    etc., es una poderosa tecnología nueva con gran potencial
    para ayudar a las compañías a concentrarse en la
    información más importante de su base de
    información (Data Warehouse).

    Para aplicar mejor técnicas avanzadas de Data
    Mining
    , éstas deben estar totalmente integradas con el
    Data Warehouse así como con herramientas flexibles
    e interactivas para el análisis de negocios. Varias
    herramientas de Data Mining (de algunas hablaremos en el
    Capitulo III) actualmente operan fuera del Warehouse,
    requiriendo pasos extra para extraer, importar y analizar los
    datos. Además, cuando nuevos conceptos requieren
    implementación operacional, la integración con el
    Warehouse simplifica la aplicación de los
    resultados desde Data Mining. El Data Warehouse
    puede ser aplicado para mejorar procesos de negocios en toda la
    organización, en áreas tales como manejo de
    campañas promocionales, detección de fraudes,
    lanzamiento de nuevos productos, etc.

    El punto de inicio ideal es un Data Warehouse que
    contenga una combinación de datos de seguimiento interno
    de todos los clientes junto con datos externos de mercado acerca
    de la actividad de los competidores. Información
    histórica sobre potenciales clientes también provee
    una excelente base para la predicción de tendencias. Este
    Warehouse puede ser implementado en una variedad de
    sistemas de bases de datos relacionales y debe ser optimizado
    para un acceso a los datos flexible y rápido.

    Las soluciones que aporta el Data Mining
    están basadas en la implementación, a través
    de la programación, de interfaces de uso general y
    algoritmos propios y disponibles para todos que permiten una
    eficiente exploración y organización de los datos.
    Estos algoritmos apoyan la identificación de patrones,
    relaciones y anomalías de interés potencial para
    los que toman las decisiones en los negocios. Además de
    implementar estos algoritmos en un método
    accesible para el usuario la tecnología del Data
    Mining
    requiere una comprensión de varias bases de
    datos e implementación de soluciones de Data Mining
    para aprovechar las características de dichas bases de
    datos (si hay alguna) y que hacen que las tareas del Data
    Mining
    sean más eficientes en grandes volúmenes
    de datos. Además de las implementaciones de algoritmos,
    consideraciones claves relativas al Data Mining
    serían la preparación de datos y el asegurar la
    escalabilidad y rendimiento en grandes volúmenes de
    datos.

    2.2. Creación de un proyecto Data
    Mining
    .

    La creación de un proyecto de Data Mining
    pasa por diferentes fases, estas varían de autor en autor
    y también dependen de dónde se vaya a implantar
    dicho proyecto, aquí presentamos una forma general para la
    creación de un proyecto de DM y una forma más
    específica, estas fases sirven como una guía
    parcial para elegir una buena forma de implantar un proyecto de
    este tipo, al final de esta sección presentamos algunas
    recomendaciones para crear un proyecto de Data Mining de Juan
    Uwaldo Redondo.

    2.2.1. Fases generales para la creación de un
    proyecto Data Mining.[6]

    En esta parte se emplean cuatro fases independientemente
    de la técnica específica de extracción de
    conocimiento usada.

    1. Filtrado de datos.
    2. Selección de Variables.
    3. Extracción de Conocimiento.
    4. Interpretación y Evaluación.

    Estas fases las explicamos enseguida.

    • Filtrado de datos: El formato de los datos
      contenidos en la fuente de datos nunca es el idóneo, y
      la mayoría de las veces no es posible utilizar
      ningún algoritmo de
      minería. Mediante el preprocesado, se filtran los datos
      (se eliminan valores
      incorrectos, no válidos, desconocidos, etc.), se
      obtienen muestras de los mismos (mayor velocidad de respuesta
      del proceso), o se reducen el número de valores posibles
      (mediante redondeo, agrupamiento, etc.).
    • Selección de variables: Aún
      después de haber sido preprocesados, se sigue teniendo
      una cantidad ingente de datos. La selección de
      características reduce el tamaño de los datos,
      eligiendo las variables más influyentes en el problema,
      sin apenas sacrificar la calidad del modelo de conocimiento
      obtenido del proceso de minería. Los métodos para
      la selección de características son
      dos:
    1. Los basados en la elección de los mejores
      atributos del problema.
    2. Los que buscan variables independientes mediante
      tests de sensibilidad, algoritmos de distancia o
      heurísticos.
    • Extracción de Conocimiento: Mediante
      una técnica se obtiene un modelo de conocimiento, que
      representa patrones de comportamiento observados en los valores
      de las variables del problema o relaciones de asociación
      entre dichas variables. También pueden usarse varias
      técnicas a la vez para generar distintos
      modelos.
    • Interpretación y evaluación:
      Finalmente se procede a su validación, comprobando que
      las conclusiones son válidas y satisfactorias. En el
      caso de haber obtenido varios modelos mediante el uso de
      distintas técnicas, se deben comparar los modelos en
      busca de aquel que se ajuste mejor al problema. Si ninguno de
      los modelos alcanza los resultados esperados, se
      alterará alguno de los procesos anteriores en busca de
      nuevos modelos.

    2.2.2. Las Fases para la creación de un
    proyecto DM según José Emilio Gondar
    Nores.[11]

    José Emilio Gondar Nores nos dice que las fases
    que se siguen para la creación de un proyecto DM son las
    siguientes.

    • Fase I: Diseñar una estrategia para
      el proyecto DM.
    • Fase II: Construcción y diseño de una
      BD: Data Warehouse y OLAP
    • Fase III: Creación aplicaciones inteligentes
      del modelo Data Mining.
    • Fase IV: Formación del equipo humano fijo de
      Data Mining.
    • Fase V: Lanzamiento del modelo de DM,
      evaluación de la calidad y corrección de los
      errores del modelo de DM.

    Estas fases son un tanto más específicas
    que las que veremos posteriormente, su explicación es la
    siguiente.

    • Fase I: Diseñar una estrategia para el
      proyecto DM:
      Durante esta fase se debe diseñar, lo
      mejor posible, una estrategia y una metodología, además de adaptar la
      situación del entorno a un plan para la
      creación de un proyecto de Data Mining, como
      recordará, al inicio de este capítulo hicimos
      mención del hecho que un proyecto de Data Mining
      e incluso un proyecto de cualquier otra índole, su
      planificación y la forma en que deba trabajarse
      dependerá en gran medida de las circunstancias a las
      cuales nos estemos enfrentando, debemos apegarnos a lo que el
      usuario o cliente nos solicite, no entregar más pero
      tampoco menos, otro de los factores clave, también es el
      considerar los recursos económicos con los cuales se
      cuente para trabar un proyecto de Data Mining. Otro de los
      puntos a establecer es el tiempo límite en el cual se
      deberá trabajar con un proyecto de este
      tipo.
    • Fase II: Construcción y diseño de
      una BD: Data Warehouse y OLAP:
      Se considera la
      implementación del almacén de datos (Data
      Warehouse
      ). Las 4 etapas típicas de
      construcción y modelado de un DW son las
      siguientes:
    1. Indicadores y Dimensiones del Negocio.
    2. Identificación del origen de
      datos.
    3. Pruebas e Implementación.
    4. Evaluación y Explotación.

    Para Bases de Datos se emplean, entre otros, el
    software OracleÓ y MicrosoftÓ .

    La implementación del OLAP tiene 4
    fases:

    • Fusión de Datos.
    • Depurar los Datos.
    • Agregar los Datos.
    • Organizar los Datos.

    Para OLAP se emplean, entre otros, el software
    MicrosoftÓ
    y MicrostrategyÓ .

    • Fase III: Creación de Aplicaciones
      Inteligentes del Modelo de DM:
      Esta fase integra los
      siguientes puntos:
    1. Creación de aplicaciones inteligentes
      (Inteligencia Artificial) del modelo de DM: creación p.
      ej., de patrones, reglas de asociación, árboles de decisión,
      etc.
    2. Integración de todas las BD (es decir, de toda
      la información del DW).
    3. Creación de un único fichero de datos:
      ficheros lineales ( todos los casos y variables tiene el mismo
      valor) y no lineales (en este tipo de ficheros existen
      situaciones, sujetos y acciones ocultas o
      incompletas).
    4. Planteamiento de un DM (Metodologías o
      estrategias). Hay dos tipos de
      planteamientos:

    SEMMA (SAS):

    • S. Samplig: Muestreo.
    • E. Exploration: Exploración de las
      Bases de datos.
    • M. Modification: Modificación o
      transformación de variables para crear (en su caso)
      variables más aptas para los
      análisis.
    • M. Modelling: Modelado
      estadístico.
    • A. Assessment: Evaluación del DM,
      medido en coeficiente %.

    CRISP-DM (SPSS):

      • Comprensión del negocio.
      • Compresión de los datos.
      • Preparación de los datos.
      • Modelado.
      • Evaluación.
      • Lanzamiento.
    • Fase IV: Formación del equipo humano fijo
      de Data Mining:
      La formación del staff de
      diseño, desarrollo y mantenimiento del DM considera a 5
      personas fijas:
      • Jefe de proyecto.
      • Coordinador de DM.
      • Analista de DM.
      • Diseñador de DW.
      • Ayudante de DM.

    En esta fase se debe realizar la explicación a
    este equipo de la lógica
    de sistema y del funcionamiento de la aplicación del DM y
    la selección del staff. Se plantean en esta fase dos
    posibles situaciones:

    1. El cliente crea su propio equipo y éste
      mantiene el DM. Se ayuda a crear este equipo para que trabaje
      de modo autónomo del creador.
    2. El cliente subcontrata un servicio de Outsourcing. En
      este caso, se debe plantear una oferta de
      servicio de apoyo y consultaría constante Post-hoc
      (posterior a la implantación de la solución de
      DM). Esto da lugar a viajes,
      estancia y gastos.
    • Fase V: Lanzamiento del modelo de DM,
      evaluación de la calidad y corrección de los
      errores del modelo de DM:
      La evaluación y
      corrección de los errores del modelo de DM afecta a la
      gestión y control de
      calidad del modelo DM. Hay tres tipos de
      tareas:
    1. Estudiar posibles errores y detectarlos en el
      funcionamiento de la aplicación.
    2. Plantear posibles correcciones o soluciones a dichos
      errores.
    3. Evaluar la calidad del sistema o aplicación
      del DM construido.

    2.2.3. Recomendaciones para la creación de un
    proyecto Data Mining.[15]

    Juan Uwaldo Redondo nos da algunas recomendaciones para
    poder implantar un proyecto de Data Mining.

    • Analice sus necesidades de información.
      Sea realista con ellas y contemple los futuros crecimientos.
      Evite que en poco tiempo su sistema se quede pequeño o
      poco operativo.
    • No tenga complejos técnicos por no ser un
      experto.
      Usted es quien mejor conoce su empresa y a sus
      clientes.
    • Pida asesoramiento externo. La visión
      de alguien experto en procesos y ajeno a la
      compañía, introducirá un soplo de aire fresco y
      una visión más rica del problema.
    • No mate moscas a cañonazos. No implante
      sistemas que no necesita. Además de caros, serán
      un obstáculo y una hipoteca para futuros
      crecimientos.
    • Si pide una valoración externa de sus
      sistemas y procesos, elija con cuidado
      . Si invita a
      Ferrari, le venderán un Ferrari aunque lo que usted
      necesite sea una furgoneta.
    • Contraste opiniones. Utilice la
      situación para proponer mejoras en los procesos, en las
      rutinas, y en la forma de trabajar. Puede ser un excelente
      pretexto para revisar procedimientos y recortar costes. En
      cualquier caso, no informatice el caos.
    • No implante nada que no necesite de verdad. Si
      lo implanta mantenga una visión a medio-largo
      plazo.
    • Utilice las herramientas y los recursos de los que
      ya dispone.
      Contratar un proyecto o un sistema más
      caro no va a hacer que aumente su rentabilidad.

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter