Monografias.com > Ingeniería
Descargar Imprimir Comentar Ver trabajos relacionados

Data mining: generalidades



    Monografias.com
    DATA MINING Definición Tradicional "Un proceso no trivial
    de identificación válida, novedosa, potencialmente
    útil y entendible de patrones comprensibles que se
    encuentran ocultos en los datos" (Fayyad y otros, 1996). Otra
    Definición “La integración de un conjunto de
    áreas que tienen como propósito la
    identificación de un conocimiento obtenido a partir de las
    bases de datos que aporten un sesgo hacia la toma de
    decisión" (Molina y otros, 2001).

    Monografias.com
    Importante El data mining es una tecnología compuesta por
    etapas que integra varias áreas y que no se debe confundir
    con un gran software. Durante el desarrollo de un proyecto de
    este tipo se usan diferentes aplicaciones software en cada etapa
    que pueden ser estadísticas, de visualización de
    datos o de inteligencia artificial, principalmente. Actualmente
    existen aplicaciones o herramientas comerciales de data mining
    muy poderosas que contienen un sinfín de utilerías
    que facilitan el desarrollo de un proyecto. Sin embargo, casi
    siempre acaban complementándose con otra
    herramienta.

    Monografias.com
    DESCUBRIENDO INFORMACIÓN OCULTA La extracción de
    información oculta y predecible de grandes bases de datos,
    es una poderosa tecnología nueva con gran potencial para
    ayudar a las compañías a concentrarse en la
    información más importante de sus Bases de
    Información (Data Warehouse). Las herramientas de Data
    Mining predicen futuras tendencias y comportamientos, permitiendo
    en los negocios tomar decisiones proactivas y conducidas por un
    conocimiento acabado de la información
    (knowledge-driven).

    Monografias.com
    LOS FUNDAMENTOS DEL DATA MINING Las técnicas de Data
    Mining son el resultado de un largo proceso de
    investigación y desarrollo de productos. Esta
    evolución comenzó cuando los datos de negocios
    fueron almacenados por primera vez en computadoras, y
    continuó con mejoras en el acceso a los datos, y
    más recientemente con tecnologías generadas para
    permitir a los usuarios navegar a través de los datos en
    tiempo real. Data Mining toma este proceso de evolución
    más allá del acceso y navegación
    retrospectiva de los datos, hacia la entrega de
    información prospectiva y proactiva.

    Monografias.com
    Data Mining está soportado por tres tecnologías que
    ya están suficientemente maduras: Recolección
    masiva de datos Potentes computadoras con multiprocesadores
    Algoritmos de Data Mining LOS FUNDAMENTOS DEL DATA MINING

    Monografias.com
    EL ALCANCE DE DATA MINING El nombre de Data Mining deriva de las
    similitudes entre buscar valiosa información de negocios
    en grandes bases de datos – por ej.: encontrar información
    de la venta de un producto entre grandes montos de Gigabytes
    almacenados – y minar una montaña para encontrar una veta
    de metales valiosos. Ambos procesos requieren examinar una
    inmensa cantidad de material, o investigar inteligentemente hasta
    encontrar exactamente donde residen los valores.

    Monografias.com
    EL ALCANCE DE DATA MINING Dadas bases de datos de suficiente
    tamaño y calidad, la tecnología de Data Mining
    puede generar nuevas oportunidades de negocios al proveer estas
    capacidades: Predicción automatizada de tendencias y
    comportamientos. Descubrimiento automatizado de modelos
    previamente desconocidos.

    Monografias.com
    LAS TÉCNICAS USADAS EN DATA MINING Redes neuronales
    artificiales Arboles de decisión Algoritmos
    genéticos Método del vecino más cercano
    Regla de inducción

    Monografias.com
    UNA ARQUITECTURA PARA DATA MINING Este diseño representa
    una transferencia fundamental desde los sistemas de soporte de
    decisión convencionales. Más que simplemente
    proveer datos a los usuarios finales a través de software
    de consultas y reportes, el server de Análisis Avanzado
    aplica los modelos de negocios del usuario directamente al
    warehouse y devuelve un análisis proactivo de la
    información más relevante. Estos resultados mejoran
    los metadatos en el server OLAP proveyendo una estrato de
    metadatos que representa una vista fraccionada de los datos.
    Generadores de reportes, visualizadores y otras herramientas de
    análisis pueden ser aplicadas para planificar futuras
    acciones y confirmar el impacto de esos planes.

    Monografias.com
     PROYECTO DE MINERÍA DE DATOS– PASOS A SEGUIR Los
    pasos a seguir para la realización de un proyecto de
    minería de datos son siempre los mismos,
    independientemente de la técnica específica de
    extracción de conocimiento usada.

    Monografias.com
    Fases de la minería de datos Selección y
    preprocesado de datos Selección de variables
    Extracción de conocimiento Interpretación y
    evaluación

    Monografias.com
    ALGORITMOS DE MINERÍA DE DATOS Los algoritmos de
    minería de datos son quienes forman un modelo una
    estructura analizando un conjunto de datos en los cuales
    encuentran una serie de patrones y de tendencias
    específicas, es decir que encuentran todas las conexiones
    posibles que pueda haber en toda la información. Los
    resultados de todas estas conexiones son los que nos proporcionan
    el modelo en si, la forma que va a tomar la organización
    de toda esta información por consecuencia tendrá
    ciertos parámetros de los cuales se sacara los patrones
    que se puedan procesar y además estadísticas
    detalladas.

    Monografias.com
    TIPOS DE ALGORITMOS DE MINERÍA DE DATOS Algoritmos de
    clasificación Discretos Continuos Algoritmos de
    segmentación Algoritmos de regresión Algoritmos de
    asociación Algoritmos de análisis de
    secuencias

    Monografias.com
    EXTENSIONES DEL DATA MINING Web mining Las herramientas de web
    mining analizan y procesan estos logs para producir
    información significativa, por ejemplo, cómo es la
    navegación de un cliente antes de hacer una compra en
    línea. Debido a que los contenidos de Internet consisten
    en varios tipos de datos, como texto, imagen, vídeo,
    metadatos o hiperligas, investigaciones recientes usan el
    término multimedia data mining (minería de datos
    multimedia) como una instancia del web mining (Zaiane y otros,
    1998) para tratar ese tipo de datos.

    Monografias.com
    Clasificación de la web mining 1. Web content mining
    (minería de contenido web). Es el proceso que consiste en
    la extracción de conocimiento del contenido de documentos
    o sus descripciones. La localización de patrones en el
    texto de los documentos, el descubrimiento del recurso basado en
    conceptos de indexación o la tecnología basada en
    agentes también pueden formar parte de esta
    categoría.   2. Web structure mining (minería
    de estructura web). Es el proceso de inferir conocimiento de la
    organización del WWW y la estructura de sus ligas. 3. Web
    usage mining (minería de uso web). Es el proceso de
    extracción de modelos interesantes usando los logs de los
    accesos al web.

    Monografias.com
    EXTENSIONES DEL DATA MINING Text mining Estudios recientes
    indican que el ochenta por ciento de la información de una
    compañía está almacenada en forma de
    documentos. Sin duda, este campo de estudio es muy vasto, por lo
    que técnicas como la categorización de texto, el
    procesamiento de lenguaje natural, la extracción y
    recuperación de la información o el aprendizaje
    automático, entre otras, apoyan al text mining
    (minería de texto). En ocasiones se confunde el text
    mining con la recuperación de la información
    (Information Retrieval o IR) (Hearst, 1999).

    Monografias.com
    INCONVENIENTES DE DATA MINING Grandes volumenes de
    información y altamente dimensionales, lo que dificulta el
    hallazgo de patrones. Valores inconsistentes o no existentes en
    algunos atributos importantes. Estas situaciones deberían
    haberse corregido en la fase de población y
    actualización, pero en caso de presentarse se debe tener
    una política para su manejo. La representación de
    los resultados no siempre es comprensible para todos los
    usuarios. Valor estadístico de los patrones
    hallados.

    Monografias.com
    PRODUCTOS PARA MINERÍA DE DATOS Hoy existen una buena
    cantidad de productos, de diversos fabricantes, para
    minería de datos, varios de ellos impulsados por
    universidades reconocidas [Esc96]. Por enumerar algunos,
    Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind
    (Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir en
    sitios Internet, para las diferentes plataformas: Data Surveyor
    (www.ddi.nl), IDIS (http://datamine.inter.net/datamine),VisDB
    (http://www.informatik.uni-halle.de/dbs/Research/VisDB). Este
    último producto tiene una versión para sistema
    operativo Linux. El VisDB se ha desarrollado para apoyar la
    exploración de bancos de datos grandes. Los instrumentos
    de VisDB implementan severas técnicas visuales,
    permitiendo trabajar con bodegas de datos de aproximadamente un
    millón de valores de datos.

    Monografias.com
    EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En el
    gobierno A principios del mes de julio de 2002, el director del
    Federal Bureau of Investigation (FBI), John Aschcroft,
    anunció que el Departamento de Justicia comenzará a
    introducirse en la vasta cantidad de datos comerciales referentes
    a los hábitos y preferencias de compra de los
    consumidores, con el fin de descubrir potenciales terroristas
    antes de que ejecuten una acción. Algunos expertos
    aseguran que, con esta información, el FBI unirá
    todas las bases de datos probablemente mediante el número
    de la Seguridad Social y permitirá saber si una persona
    fuma, qué talla y tipo de ropa usa, su registro de
    arrestos, su salario, las revistas a las que está
    suscrito, su altura y peso, sus contribuciones a la Iglesia,
    grupos políticos u organizaciones no gubernamentales, sus
    enfermedades crónicas (como diabetes o asma), los libros
    que lee, los productos de supermercado que compra, si tomó
    clases de vuelo o si tiene cuentas de banco abiertas, entre
    otros. La inversión inicial ronda los setenta millones de
    dólares estadounidenses para consolidar los almacenes de
    datos, desarrollar redes de seguridad para compartir
    información e implementar nuevo software analítico
    y de visualización.

    Monografias.com
    EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la
    empresa En 2001, las instituciones financieras a escala mundial
    perdieron más de 2.000 millones de dólares
    estadounidenses en fraudes con tarjetas de crédito y
    débito. El Falcon Fraud Manager es un sistema inteligente
    que examina transacciones, propietarios de tarjetas y datos
    financieros para detectar y mitigar fraudes. En un principio
    estaba pensado, en instituciones financieras de
    Norteamérica, para detectar fraudes en tarjetas de
    crédito. Sin embargo, actualmente se le han incorporado
    funcionalidades de análisis en las tarjetas comerciales,
    de combustibles y de débito. El sistema Falcon ha
    permitido ahorrar más de seiscientos millones de
    dólares estadounidenses cada año y protege
    aproximadamente más de cuatrocientos cincuenta millones de
    pagos con tarjeta en todo el mundo –aproximadamente el
    sesenta y cinco por ciento de todas las transacciones con tarjeta
    de crédito.

    Monografias.com
    EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la
    empresa En 2001, las instituciones financieras a escala mundial
    perdieron más de 2.000 millones de dólares
    estadounidenses en fraudes con tarjetas de crédito y
    débito. El Falcon Fraud Manager es un sistema inteligente
    que examina transacciones, propietarios de tarjetas y datos
    financieros para detectar y mitigar fraudes. En un principio
    estaba pensado, en instituciones financieras de
    Norteamérica, para detectar fraudes en tarjetas de
    crédito. Sin embargo, actualmente se le han incorporado
    funcionalidades de análisis en las tarjetas comerciales,
    de combustibles y de débito. El sistema Falcon ha
    permitido ahorrar más de seiscientos millones de
    dólares estadounidenses cada año y protege
    aproximadamente más de cuatrocientos cincuenta millones de
    pagos con tarjeta en todo el mundo –aproximadamente el
    sesenta y cinco por ciento de todas las transacciones con tarjeta
    de crédito.

    Monografias.com
    Conclusiones Nuestra capacidad para almacenar datos ha crecido en
    los últimos años a velocidades exponenciales. En
    contrapartida, nuestra capacidad para procesarlos y utilizarlos
    no ha ido a la par. Por este motivo, el data mining se presenta
    como una tecnología de apoyo para explorar, analizar,
    comprender y aplicar el conocimiento obtenido usando grandes
    volúmenes de datos. Descubrir nuevos caminos que nos
    ayuden en la identificación de interesantes estructuras en
    los datos es una de las tareas fundamentales en el data
    mining.

    Monografias.com
    Conclusiones Las herramientas comerciales de Data Mining que
    existen actualmente en el mercado son variadas y excelentes. Las
    hay orientadas al estudio del web o al análisis de
    documentos o de clientes de supermercado, mientras que otras son
    de uso más general. Su correcta elección depende de
    la necesidad de la empresa y de los objetivos a corto y largo
    plazo que pretenda alcanzar. La decisión de seleccionar
    una solución de Data Mining no es una tarea simple. Es
    necesario consultar a expertos en el área con vista a
    seleccionar la más adecuada para el problema de la
    empresa.

    Monografias.com
    Conclusiones El Data Mining se presenta como una
    tecnología emergente, con varias ventajas: por un lado,
    resulta un buen punto de encuentro entre los investigadores y las
    personas de negocios; por otro, ahorra grandes cantidades de
    dinero a una empresa y abre nuevas oportunidades de negocios.
    Además, no hay duda de que trabajar con esta
    tecnología implica cuidar un sinnúmero de detalles
    debido a que el producto final involucra "toma de decisiones".

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter