Monografias.com > Computación
Descargar Imprimir Comentar Ver trabajos relacionados

Herramientas de Minería de Datos




Enviado por Yanet



  1. Resumen
  2. Introducción
  3. Materiales y métodos o
    Metodología computacional
  4. Resultados y
    discusión
  5. Conclusiones
  6. Referencias

Datamining tools

Resumen

En la presente investigación se realiza una
caracterización de las diferentes herramientas que se usan
en la minería de datos, se lleva a cabo atendiendo a los
principales autores y revistas fundamentalmente. Se enuncian las
principales herramientas utilizadas en el mundo de la
minería de datos, así como en qué consiste a
grandes rasgos la minería de datos. Se realiza un
detallado análisis de cada una de las herramientas,
teniendo en cuenta sus características. ?La Minería
de Datos (DM) por las siglas en inglés Data Mining es el
proceso de extraer conocimiento útil y comprensible,
previamente desconocido, desde grandes cantidades de datos
almacenados en distintos formatos. Las herramientas de Data
Mining predicen futuras tendencias y comportamientos, permitiendo
en los negocios la toma de decisiones. Una de las cualidades
más destacables en las herramientas escogidas: Weka y
RapidMiner, es su sencillez, tanto en su aprendizaje como en su
aplicación, reduciendo así los costos de
implantación en un equipo de desarrollo, lo cual ha
llevado hacia un interés creciente en las herramientas
de  software libre.

Palabras clave: minería de datos;
herramientas; herramientas de la minería de datos;
negocios; toma de decisiones.

Abstract: In the present investigation will be
carried out characterizes the different tools used in data
mining, assisting fundamentally to the main authors and
magazines. It sets out the main tools used in the world of data
mining and what it is to outline the data mining. We performed a
detailed analysis of each of the tools, taking into account their
characteristics. Data mining (DM) by the acronym Data Mining is
the process of extracting useful and understandable knowledge,
previously unknown from large quantities of data stored in
different formats. Data mining tools predict future trends and
behaviors, allowing business decision making. One of the most
important qualities in the tools chosen: Weka and RapidMiner is
its simplicity, both in learning and in their application,
thereby reducing the costs of implementing in a development team,
which has led to a growing interest in free software
tools.

Keywords: datamining; tools; datamining tools;
business; decision making.

Introducción

Desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data
archaeology, con la idea de encontrar correlaciones sin una
hipótesis previa en bases de datos con ruido. A principios
de los años ochenta, Rakesh Agrawal, Gio Wiederhold, entre
otros comenzaron a consolidar los términos de data
mining.

En el presente trabajo se realizará una
caracterización de las diferentes herramientas de
minería de datos, se hará atendiendo a principales
autores y revistas fundamentalmente. Entre los autores que
más se destacan y que se analizaron se encuentran: Orallo
Hernández, J.Quintana Ramírez, Ma. J.
Ramírez Ferri.

La minería de datos consiste en descubrir
información que se encuentra oculta dentro de las bases de
datos de manera inteligente pero automatizada. Data Mining, en su
proceso de análisis y exploración de datos utiliza
técnicas estadísticas y modelos matemáticos
para encontrar patrones, relaciones y tendencias con uso
predictivo.

El término de minería de datos es una
etapa dentro de un proceso mayor llamado extracción de
conocimiento en bases de datos. Consiste en reunir las ventajas
de varias áreas como la Estadística, la
Inteligencia Artificial, la Computación Gráfica,
las Bases de Datos y el Procesamiento Masivo, principalmente
usando como materia prima las bases de datos.

Materiales y
métodos o Metodología computacional

El data mining es una tecnología compuesta por
etapas que integra varias áreas y que no se debe confundir
con un gran software. Durante el desarrollo de un proyecto de
este tipo se usan diferentes aplicaciones de software en cada
etapa que pueden ser estadísticas, de visualización
de datos o de inteligencia artificial, principalmente.
Actualmente existen aplicaciones o herramientas comerciales de
data mining muy poderosas que contienen un sinfín de
utilerías que facilitan el desarrollo de un proyecto. Sin
embargo, casi siempre acaban complementándose con otra
herramienta.

Herramientas de la minería de
datos

  • Clementine / SPSS: Herramienta de data mining
    que permite desarrollar modelos predictivos y desplegarlos
    para mejorar la toma de decisiones. Está
    diseñada teniendo en cuenta a los usuarios
    empresariales, de manera que no es preciso ser un experto en
    data mining.

Clementine es la más avanzada herramienta de Data
Mining del mercado, combina modernas técnicas de
modelamiento con poderosas herramientas de acceso,
manipulación y exploración de datos en una interfaz
simple e intuitiva.

Características de Clementine

  • Fácil entendimiento de los
    datos.

  • Visualización interactiva.

  • Poderosa preparación de los
    datos.

  • Combina datos de múltiples
    fuentes.

  • Especifica valores perdidos.

  • Deriva nuevas variables.

  • Produce información resumida.

  • Incrementa la productividad con su enfoque visual
    de la manipulación de datos.

  • Técnicas de Modelado.

  • Técnicas Supervisadas: C&RT, Redes
    Neuronales, C5.0, Quest, CHAID, Regresión Lineal y
    Regresión Logística.

  • Técnicas No Supervisadas: K-medias, Kohonen,
    Bi-etápico, Apriori, GRI, Sequence, Carma,
    Detección de Anomalías.

  • Técnicas de Evaluación: Tablas
    Estadísticas, Gráficos de Ganancia y
    ROI.

  • Técnicas de Publicación de
    modelos:
    Punteo o Scoring de Bases de Datos, Scoring en
    tiempo real.

Clementine cuenta con los métodos de redes
neuronales de mayor uso (Kohonen, Prune, Radial Basis). Las redes
neuronales son, junto a los árboles de decisión,
las más importantes herramientas de data mining
disponibles actualmente debido a su capacidad para encontrar
relaciones ocultas entre las variables y su flexibilidad para
enfrentar distintos tipos de problemas de negocios.

  • SAS Enterprise Miner / SAS: Solución
    de minería de datos que proporciona gran cantidad de
    modelos y de alternativas. Permite determinar pautas y
    tendencias, explica resultados conocidos e identifica
    factores que permiten asegurar efectos deseados.
    Además, compara los resultados de las distintas
    técnicas de modelado, tanto en términos
    estadísticos como de negocio, dentro de un marco
    sencillo y fácil de interpretar.

  • Keel: Es un software para evaluar la
    evolución de los algoritmos de minería de datos
    y problemas de regresión, entre ellos:
    clasificación, agrupamiento y patrón de la
    minería. Contiene una gran colección de
    algoritmos clásicos de extracción de
    conocimientos, técnicas de pre procesamiento
    (selección de instancias, selección de
    características, discretización, métodos
    de imputación de valores), Inteligencia Computacional
    de aprendizaje basado en algoritmos, incluido el estado
    evolutivo de algoritmos de aprendizaje basados en diferentes
    enfoques (Pittsburgh, Michigan y IRL) y modelos
    híbridos como sistemas difusos genéticos, redes
    neuronales evolutivas, etc. Nos permite realizar un
    análisis completo de cualquier modelo de aprendizaje
    en comparación con los existentes, incluido un
    módulo de prueba estadística para la
    comparación entre ellos.

El uso más común de esta herramienta para
un investigador será la ejecución automatizada de
los experimentos y el análisis estadístico de sus
resultados. Esta herramienta no está diseñada para
ofrecer un tiempo real del progreso de los algoritmos. Trabaja
muy bien en ambiente distribuido de sistemas.

Fue diseñado con doble objetivo: la
investigación y la educación. Cuenta con licencia
comercial, lo que lo convierte Software propietario

  • SAS Analytics / SAS: Suite de soluciones
    analíticas que permiten transformar todos los datos de
    la organización en conocimiento, reduciendo la
    incertidumbre, realizando predicciones fiables y optimizando
    el desempeño.

  • RapidMiner / Yale: Es el líder mundial
    de código abierto para la minería de datos
    debido a su combinación de su tecnología de
    primera calidad y su rango de funcionalidad. Esta
    aplicación de RapidMiner cubre un amplio rango de
    minería de datos. Además de ser una herramienta
    flexible para aprender y explorar la minería de datos,
    la interfaz gráfica de usuario tiene como objetivo
    simplificar el uso para las tareas complejas de esta
    área.

Características de RapidMiner

  • RapidMiner es un sistema prototipado para el
    descubrimiento del conocimiento y Data Mining.

  • Es un software de tipo Open-Source con licencia GNU
    GPL, basado en java.

  • Trabaja bajo las plataformas Windows y
    Linux.

  • Posee alrededor de 400 operadores que pueden ser
    combinados.

  • Usa el lenguaje de scripting XML para describir los
    operadores y su configuración.

  • La característica más importante es la
    capacidad de jerarquizar cadenas del operador y de construir
    complejos árboles de operadores.

  • El lenguaje de encriptación permite
    automáticamente una gran cantidad de
    experimentos.

  • Posee una interfaz gráfica, línea
    comando, y API de Java para usar RapidMiner desde tus propios
    programas.

  • Una gran cantidad de extensiones
    (plugins).

  • Las aplicaciones incluyen: Text Mining, Multimedia
    Mining, entre otras.

  • Microsoft SQL Server 2005 / Microsoft:
    Solución que ofrece un entorno integrado para crear
    modelos de minería de datos y trabajar con ellos. La
    solución SQL Server Data Mining permite el acceso a la
    información necesaria para tomar decisiones
    inteligentes sobre problemas empresariales
    complejos.

Características de Microsoft SQL Server
2005

  • El procesamiento de los modelos de una misma
    estructura de minería ocurre en paralelo, en una sola
    lectura de los datos.

  • Suministra más de 12 visores de resultados
    para los algoritmos que ayudarán a comprender mejor
    los patrones encontrados en el proceso de
    minería.

  • Proporciona gráficos de elevación, de
    beneficios y una matriz de clasificación que permite
    establecer una comparación de lo real con lo previsto;
    para contrastar y comparar la calidad de los
    modelos.

  • Posee un lenguaje para la creación de
    consultas de minería (DMX) similar al SQL que facilita
    la tarea de creación de aplicaciones de minería
    de datos. Posee una interfaz gráfica para generar las
    consultas DMX.

  • Cuenta con los algoritmos de minería
    más avanzados: Naive Bayes, Clustering,
    Clústeres de Secuencia, Árboles de
    Decisión, Redes Neuronales, Series Temporales, Reglas
    de Asociación, Regresión Logística, y
    Regresión Lineal y minería de
    textos.

Es un marco de desarrollo para agregar nuevos algoritmos
y también para construir visores propios para los modelos
generados.

  • Dlife / Apara: Plataforma
    bioinformática para la toma de decisiones
    clínicas. Proporciona un soporte computacional a la
    toma de decisiones médicas en los procesos de
    diagnóstico, tratamiento y seguimiento de la
    evolución de los pacientes que permite a los
    profesionales clínicos incrementar su precisión
    y la eficiencia de la prestación sanitaria en una
    media del 20%.

  • KNIME: Fue desarrollado originalmente en el
    departamento de bioinformática y minería de
    datos de la Universidad de Constanza, Alemania, bajo la
    supervisión del profesor Michael Berthold.

Características de KNIME

  • KNIME está desarrollado sobre la plataforma
    Eclipse y programado, esencialmente, en java. Está
    concebido como una herramienta gráfica y dispone de
    una serie de nodos (que encapsulan distintos tipos de
    algoritmos) y flechas (que representan flujos de datos) que
    se despliegan y combinan de manera gráfica e
    interactiva.

  • Los nodos implementan distintos tipos de acciones
    que pueden ejecutarse sobre una tabla de datos:

  • Manipulación de filas, columnas, como
    muestreos, transformaciones, agrupaciones.

  • Visualización (histogramas).

  • Creación de modelos estadísticos y de
    minería de datos, como árboles de
    decisión, regresiones.

  • Validación de modelos, como curvas
    ROC.

  • Scoring o aplicación de dichos modelos sobre
    conjuntos nuevos de datos.

  • Creación de informes a medida gracias a su
    integración con BIRT.

  • El carácter abierto de la herramienta hace
    posible su extensión mediante la creación de
    nuevos • nodos que implementen algoritmos a la medida
    del usuario.

  • KNIME integra diversos componentes para aprendizaje
    automático y minería de datos a través
    de su concepto de fraccionamiento de datos (data pipelining)
    modular. La interfaz gráfica de usuario permite el
    montaje fácil y rápido de nodos para
    procesamiento de datos (ETL: extracción,
    transformación, carga), para el análisis de
    datos, modelado y visualización. KNIME es desde 2006
    utilizado en la investigación farmacéutica,
    pero también se utiliza en otras áreas, como:
    análisis de datos de cliente de CRM, inteligencia de
    negocio y análisis de datos financieros.

  • KNIME es una herramienta de código abierto
    que puede ser descargada y utilizada gratuitamente bajo los
    términos de la licencia GPLv3 con una excepción
    que permite que otros usuarios utilicen el bien definido nodo
    de API para añadir extensiones de
    propiedad.

  • KXEN: se compone de un conjunto de módulos
    que pueden adquirirse conjuntamente, agrupados en diferentes
    paquetes, o por separado. Estos módulos pueden
    utilizarse junto con el "Modeling Assistant" y el "Robust
    Reporting" como una Solución de Automatización
    en Minería de Datos. También pueden integrarse,
    vía APIs, de forma sencilla y transparente, en los
    procesos de negocio estratégicos. KXEN AF v5.1
    está desarrollado sobre estándares como JDM
    (Java Data Mining), Web-services, PMML (Predictive Modeling
    Markup Language), SQL y Unicode. La arquitectura de KXEN AF
    V5.1 se ha mejorado de forma significativa con objeto de
    conseguir una facilidad de uso incluso mayor que en versiones
    anteriores, acelerar el proceso de entrenamiento de los
    modelos y trabajar con volúmenes de datos aún
    más grandes.

  • Weka: es un conjunto de librerías java para
    la extracción de conocimientos desde bases de datos.
    Es un software que ha sido desarrollado bajo licencia GPL lo
    cual ha impulsado que sea una de las suites más
    utilizadas en el área en los últimos
    años. Una de las propiedades más interesantes
    de este software, es su facilidad para añadir
    extensiones, modificar métodos, entre
    otros.

  • Carácterísticas de Weka

  • El paquete Weka (Waikato Environment for Knowledge
    Analysis) contiene una colección de herramientas de
    visualización y algoritmos para análisis de
    datos y modelado predictivo, unidos a una interfaz
    gráfica de usuario para acceder fácilmente a
    sus funcionalidades. La versión original de Weka fue
    como un inicio para modelar algoritmos implementados en otros
    lenguajes de programación, más unas utilidades
    para el procesamiento de datos desarrolladas en C para hacer
    experimentos de aprendizaje automático. Esta
    versión original se diseñó inicialmente
    como herramienta para analizar datos procedentes del dominio
    de la agricultura, pero la versión más reciente
    basada en Java (WEKA 3), que empezó a desarrollarse en
    1997, se utiliza en muchas y muy diferentes áreas, en
    particular con finalidades docentes y de
    investigación.

Los puntos fuertes de Weka son:

  • Está disponible libremente bajo la licencia
    pública general de GNU.

  • Es muy portable porque está completamente
    implementado en Java y puede correr en casi cualquier
    plataforma.

  • Contiene una extensa colección de
    técnicas para pre procesamiento de datos y
    modelado.

  • Es fácil de utilizar por un principiante
    gracias a su interfaz gráfica de usuario.

  • Diversas fuentes de datos (ASCII, JDBC).

  • Interfaz visual basada en procesos / flujos de datos
    (rutas)

  • Distintas herramientas de minería de
    datos:

  • Reglas de asociación (a priori, Tertius,
    etc.).

  • Agrupación / segmentación /
    conglomerado (cobweb, EM y k-medias).

  • Clasificación (redes neuronales, reglas y
    árboles de decisión).

  • Regresión (regresión lineal,
    SVM).

  • Manipulación de datos (pick & mix,
    muestreo, combinación, separación).

  • Combinación de modelos (bagging,
    boosting).

  • Entorno de experimentos, con la posibilidad de
    realizar pruebas estadísticas (T-test).

  • Weka soporta varias tareas estándar de
    minería de datos, especialmente, pre procesamiento de
    datos, clustering, clasificación, regresión,
    visualización, y selección. Todas las
    técnicas de Weka se fundamentan en la asunción
    de que los datos están disponibles en un fichero plano
    (flat file) o una relación, en la que cada registro de
    datos está descrito por un número fijo de
    atributos (normalmente numéricos o nominales, aunque
    también se soportan otros tipos). Weka también
    proporciona acceso a bases de datos vía SQL gracias a
    la conexión JDBC (Java Database Connectivity) y puede
    procesar el resultado devuelto por una consulta hecha a la
    base de datos. No puede realizar minería de datos
    multi relacional, pero existen aplicaciones que pueden
    convertir una colección de tablas relacionadas de una
    base de datos en una única tabla que ya puede ser
    procesada con Weka.

Resultados y
discusión

A lo largo de esta investigación han surgido
varios criterios de elección sobre las herramientas de
minería de datos que más se usan en la actualidad,
así como las más fáciles de usar. A
través de encuestas realizadas por diferentes autores se
ha visto la evolución de las herramientas a lo largo de
los años. En una encuesta realizada en el año 2005,
se ve el dominio de la herramienta SPSS Clementine.

Sin embargo en los últimos años los
resultados han cambiado rotundamente. Ver Figura 1.Por la
necesidad de elegir una herramienta que se pueda usar para la
minería de datos en el proyecto se ha realizado una
investigación que ha arrojado como resultado que existen
muchas herramientas muy útiles, fáciles de usar y
que ayudan a la toma de decisiones. Dada esta problemática
nos hemos auxiliado de dichas encuestas.

Monografias.com

Figura 1. Análisis del uso de
herramientas de minería de datos en los años 2010 y
2011.

Se ha definido que Weka y RapidMiner son las más
convenientes para el trabajo que se quiere realizar, ya que ambas
se complementan.

Se ha elegido Weka a pesar de no ser una de las
más usadas, porque posee características acordes a
nuestras necesidades.

El software de ambas es de tipo Open-Source con licencia
GNU GPL, basado en java. Además son multiplataforma, pues
se pueden ejecutar en Windows y Linux. RapidMiner también
permite utilizar los algoritmos incluidos en Weka.

Son herramientas flexibles para aprender y explorar la
minería de datos, la interfaz gráfica de usuario
tiene como objetivo simplificar el uso para las tareas complejas
de esta área.

Ambas se pueden utilizar de 3 formas
distintas.

RapidMiner:

  • A través de un GUI.

  • En línea de comandos.

  • En batch (lotes).

Weka:

  • Desde la línea de comandos.

  • Desde una de los interfaces de usuario.

  • Creando un programa Java.

Conclusiones

Las herramientas comerciales de data mining que existen
actualmente en el mercado son variadas y excelentes. Las hay
orientadas al estudio del web o al análisis de documentos
o de clientes de supermercado, mientras que otras son de uso
más general. Su correcta elección depende de la
necesidad de la empresa y de los objetivos a corto y largo plazo
que pretenda alcanzar.

No existe una herramienta universal para hacer frente
con éxito a cualquier proyecto de minería de datos.
Muchas de estas herramientas pueden ser usadas en el proyecto,
pero hay que tener en cuenta las características que
éstas posean, además de los recursos
técnicos, capacitación del personal y facilidad de
usar. Históricamente, las herramientas de minería
de datos predicen futuras tendencias y comportamientos,
permitiendo en los negocios la toma de decisiones. Las
herramientas ofrecen una solución casi a medida para una
gran cantidad de proyectos que tengan estas
características o simplemente que se encarguen de tomar
decisiones. Una de las cualidades más destacables en las
herramientas escogidas es su sencillez, tanto en su aprendizaje
como en su aplicación, reduciendo así los costos de
implantación en un equipo de desarrollo, lo cual ha
llevado hacia un interés creciente en las herramientas de
software libre.

Referencias

  • Marín Llanes, Luis A.; Carro Cartaya, Juan C.
    La Minería de Datos como herramienta de inteligencia
    competitiva. [En línea]. [23 de octubre de 2011].
    [Disponible en:
    http://www.redciencia.cu/empres/Intempres2000/Sitio/Principal/Literatura/DATA-MINING.pdf
    Redciencia]

  • Sofia J. Vallejos. Minería de Datos,
    Universidad Nacional del Nordeste Facultad de Ciencias
    Exactas, Naturales y Agrimensura, Argentina, 2006.

  • José Hernández Orallo, M.José
    Ramírez Quintana, Cèsar Ferri Ramírez.
    Introducción a la Minería de Datos. [En
    línea] 2004. [23 de octubre de 2011]. [Disponible en:
    http://users.dsic.upv.es/~flip/LibroMD/ ].

  • Garcia, Alvaro Barreiro. El algoritmo de
    aprendizaje. [En línea] 1997. [23 de octubre de 2011.]
    [Disponible en:
    http://www.dc.fi.udc.es/ai/~barreiro/cogdocen/cctema11/node7.html
    .]

  • Jesús Alcalá-Fdez, María
    José del Jesús, Josep M. Garrell, Francisco
    Herrera, Cesar Hervás, Luciano Sánchez.
    Proyecto KEEL: Desarrollo de una Herramienta para el
    Análisis e Implementación de Algoritmos de
    Extracción de Conocimiento Evolutivos. Granada,
    España: s.n., 2004.

  • M.I. Rafael Gamboa Hirales. Herramientas de
    minería de datos para soporte a la toma de decisiones.
    Instituto Tecnológico Autónomo De
    México, México, 2010.

  • Miguel Cospin. Minería de Datos con
    Clementine.[en línea]. Minería de Datos con
    Clementine. [23 de octubre de 2011.]. [Disponible en: http://
    spssca.com/…/Mineria_de_datos_con_Clementine.107154828.ppt.

  • Juan Carlos Cubero & Fernando Berzal.
    Introducción a KNIME. Universidad de Granada,
    2009.

  • Carlos Andrés Fritz. RapidMiner. [en
    línea]. RapidMiner [23 de octubre de 2011.].
    [Disponible en: paginas.fe.up.pt / … / Semana% 2006% 20 -%
    20lab.pdf.].

  • Alonso Cutro. Data Prix. [en línea]. [23 de
    octubre de 2011.]. [Disponible en:
    http://www.dataprix.com/723-caracter-sticas-pentaho
    .].

  • Colectivo de autores. Herramientas de Datamining.
    [en línea]. [23 de octubre de 2011.]. [Disponible en:
    http://www. datati .es/161 / Herramientas -de- datos
    mining.html.].

  • Alberto Ochoa-Zezzatti, Guillermo Romo, Francisco
    Bañuelos, Kyra Mendhizavili, Halina Iztebegovic &
    Shayera Hal. Herramienta inteligente para la toma de
    decisiones basada en Minería de Datos. Revista
    Investigación Científica, 2007,Vol. 3, No. 2:
    pág. 1 – pág. 6.

 

 

Autor:

Yanet Cardoso García
1*,

Antonio Miguel Pérez Aramillo
2

1* Facultad 6. Universidad de las Ciencias
Informáticas. Carretera a San Antonio de los Baños,
km 2 ½, Torrens, Boyeros, La Habana, CP. 19370.

2 Facultad 6. Universidad de las Ciencias
Informáticas. Carretera a San Antonio de los Baños,
km 2 ½, Torrens, Boyeros, La Habana, CP. 19370.

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter