Explotación de Información
La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento, para lograr este objetivo se utiliza a la Minería de Datos.
Se define la Minería de Datos (Data Mining) como el proceso mediante el cual se extrae conocimiento comprensible y útil que previamente era desconocido desde bases de datos, en diversos formatos, de manera automática.
Explotación de Información
La minería de datos es un elemento fundamental de un proceso más amplio que tiene como objetivo el descubrimiento de conocimiento en grandes bases de datos, este proceso, tiene una primer etapa de preparación de datos, luego el proceso de minería de datos, la obtención de patrones de comportamiento, y la evaluación e interpretación de los patrones descubiertos.
(Gp:) Siste-ma de Inf.
(Gp:)
Prepara-ción datos
(Gp:) Evaluación
Interpre-tac.
Visualizac.
(Gp:)
Minería
De Datos
(Gp:) Conocimien-to
(Gp:) Patrones
Explotación de Información
Ante la necesidad existente de brindar al incipiente mercado una aproximación sistemática para la implementación de proyectos de Minería de Datos, diversas empresas han especificado un proceso de modelado diseñado para guiar al usuario a través de una sucesión formal de pasos:
SAS propone la utilización de la metodología SEMMA [SEMMA 2008] (Sample, Explore, Modify, Model, Assess).
En el año 1999 uno grupo de empresas europeas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda), desarrollaron una metodología de libre distribución CRISP-DM (Cross-Industry Standard Process for Data Mining) [CRISP, 2008].
La metodología P3TQ [Pyle, 2003] (Product, Place, Price, Time, Quantity), tiene dos modelos, el Modelo de Explotación de Información y el Modelo de Negocio.
Procesos de Explotación de Información
Se identificaron cinco procesos de minería de datos y el contexto en el cual deben ser aplicados:
Proceso de predicción,
Proceso de construcción de modelos,
Proceso de descubrimiento de grupos,
Proceso de identificación de factores y
Proceso de detección de perfiles
Procesos, tecnologías aplicaciones de DM
La familia TDIDT (Top Down Induction Trees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados.
Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo.
Para encontrar el “mejor” atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor.
Dolor de pecho de angor
Duración del angor
No (Infarto de miocardio)
Más de 30’
Menos de 30’
Típico
Ausente
Atípico
No (Infarto de miocardio)
Si (Infarto de miocardio)
Respuesta vasodilatadora
Negativo
Positivo
Si (Infarto de miocardio)
Irradiación del angor
Si
No
No (Infarto de miocardio)
Si (Infarto de miocardio)
Angor en relación
Antigüedad del angor
Irradiación del angor
Duración del angor
Respuesta vasodilatadora
Dolor de pecho de angor
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
ALGORITMOS TDIDT
Presentación intuitiva del proceso de inducción
Si
Cantidad de calorías = Alta
Y estoy a dieta = Sí
Entonces
No comerlo
Si
Cantidad de calorías = Alta
Y estoy a dieta = No
Y estoy yendo al gimnasio = No
Entonces
Comerlo la mitad
Si
Cantidad de calorías = Alta
Y estoy a dieta = No
Y estoy yendo al gimnasio = Sí
Entonces
Comerlo
Si
Cantidad de calorías = Baja
Entonces
Comerlo
Reglas
ALGORITMOS TDIDT
Construcción de reglas
Minería de datos en entornos WEB
La aplicación de técnicas de Data Mining sobre el conjunto de datos contenidos en la World Wide Web se conoce con el nombre de WebMining el objetivo es aprovechar todas las ventajas de los procesos de Minería de Datos para obtener conocimiento de la información disponible en Internet.
Existen dos enfoques bien diferenciados de análisis, por un lado la Minería de datos desde el lado del servidor y por el otro desde el lado del cliente.
Se utiliza la minería de datos en entornos Web para descubrir en forma automática documentos y servicios de la web y extraer información útil sobre ellos, información que implica distintos tipos de datos: imágenes, sonido, texto, semi-estructurado, imágenes, etc.,
Minería de datos en entornos WEB (2)
Se aplican técnicas de Minería de Datos para:
Descubrir conocimiento relacionado con el contenido de la Web donde se localizan los datos de las páginas HTML, los datos multimedia, datos XML y de textos.
Descubrir conocimientos relacionados con el uso y el acceso a la Web (Web User Mining).
Descubrir conocimientos relacionados con la estructura de la Web y se relaciona con encontrar patrones de comportamiento en los enlaces o links que se encuentran en los documentos hipertextuales en Internet.
Página siguiente |