Integrantes:
Amundaraín, Nairubis
Carati, Edgar
Medina, Yenkis
Pérez, Carlos
Quijada, Edry
Rojas, Jonathan
Salazar, Higmarly
Suta, Danny
Valdéz, Magalys
UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA“ ANTONIO JOSÉ DE SUCRE ”VICE-RECTORADO PUERTO ORDAZDEPARTAMENTO DE INGENIERÍA INDUSTRIALSISTEMAS DE INFORMACIÓN
UNEXPO
CIUDAD GUAYANA, JULIO 2009
DATA MINING:
MINERÍA DE DATOS
Profesor:
MSc. Ing. Iván Turmero
Data mining
INTRODUCCIÓN
El conocimiento dentro de una organización es importante en la medida en que puede ayudar a conocer y comprender el comportamiento de ella misma y del entorno y favorecer la toma de decisiones.
Gracias a la minería de datos la información oculta en las bases de datos puede ser traída a la superficie. El nombre “minería de datos" -Data Mining, en el inglés original- viene de las similitudes entre la búsqueda de información de gran valor para el negocio en grandes bases de datos y la minería en las venas de oro en las montañas.
En el nuevo mundo tecnológico, la potencia de los equipos informáticos y el desarrollo de software han permitido la creación de grandes bases de datos de clientes, en las que la empresa puede registrar, y lo hace, todas las operaciones que estos realizan. Toda la información es almacenada en grandes bases de datos
Data mining
La Minería de Datos
La Minería de Datos (MD) aparece en los años 80 como una oportunidad para las empresas: la de tratar con volúmenes masivos de datos recogidos para extraer de ellos información sobre los clientes que resultara útil en proyectos de marketing.
Evolución
Definición
La MD es una disciplina que proporciona herramientas para "aprender de los datos", convirtiendo los datos en información y conocimiento.
Es una etapa crucial de un proceso más complejo denominado KDD (Knowledge Discovery in Databases, 1989), "descubrimiento de conocimiento en bases de datos"
Complemento
Data mining
Un KDD, SU ESTRUCTURA
Data mining
El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos:
Entender el dominio de aplicación, el conocimiento relevante a usar y las metas del usuario.
2. Seleccionar el conjunto de datos y enfocar la búsqueda en subconjuntos de variables o muestras de datos donde realizar el proceso de descubrimiento.
3. Filtrar (limpiar) y pre-procesar datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, etc.
4. Reducir datos y proyecciones para disminuir el número de variables a considerar.
5. Seleccionar la tarea de descubrimiento a realizar, por ejemplo: clasificación, agrupamiento, regresión, etc.
6. Seleccionar el o los algoritmos a utilizar.
7. Llevar a cabo el proceso de minería de datos.
8. Interpretar los resultados y posiblemente regresar a algún paso anterior. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.
9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.
Data mining
Métodos de la Minería de Datos
supervisados
no supervisados
Incluyen fundamentalmente procedimientos de clasificación o análisis discriminante, regresión y predicción,
Se encuentran procedimientos de análisis factorial y de clustering.
El término cluster se aplica a los conjuntos o conglomerados de computadoras construidos mediante la utilización de componentes de hardware comunes y que se comportan como si fuesen una única computadora
Data mining
Uso de la Minería de Datos
Las aplicaciones de la MD son muy numerosas y es un área en expansión: desde el más clásico análisis de la "cesta de la compra", hasta la investigación del genoma
El web mining,
El text mining
La bioinformática
Estudio de la pérdida de clientes.
SE APLICA EN
Data mining
Análisis de dependencias
Identificación de clases (agrupamiento de registros en clases)
Descripción de conceptos
Detección de desviaciones, casos extremos o anomalías
Las tareas principales en la minería de datos son:
La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional.
Identifica un conjunto finito de categorías o clusters que describen los datos (pueden ser exhaustivas y mutuamente exclusivas o jerárquicas y con superposiciones).
Se resume un cierto patrón. La descripción puede ser característica (qué registros son comunes entre clases) o discriminatoria (cómo difieren las clases).
Detectar los cambios más significativos en los datos con respecto a valores pasados o normales
Data mining
las componentes básicas de los métodos de minería son:
(Gp:) Evaluación del modelo: En cuanto a predictibilidad, se basa en técnicas de validación cruzada (cross validation); en cuanto a calidad descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de descripción mínima o MDL (minimum description length)
(Gp:) Lenguaje de representación del modelo: Es muy importante que se sepan las suposiciones y restricciones en la representación empleada
(Gp:) Método de búsqueda: Se puede dividir en búsqueda de parámetros de búsqueda del modelo, y determina los criterios que se siguen para encontrar los modelos (hipótesis)
Data mining
técnicas más comúnmente empleadas en la minería de datos son:
técnicas
Árbol de decisión
Método de clasificación y regresiones no-lineales
Métodos basados en ejemplos prototípicos
Modelos gráficos de dependencias probabilísticas
Modelos relacionales
Data mining
Métodos de hacer minería de datos.
Sin algoritmo de aprendizaje:
Consultas (SQL)
Procesamiento analítico en línea (OLAP)
Análisis estadístico (Correlación, regresiones,…)
Nuevos algoritmos:
Inducción de reglas de asociación
Inducción de clasificadores bayesianos
Con algoritmo de aprendizaje:
Redes neuronales y algoritmos genéticos
Inducción de árboles y reglas
Data mining
Ejemplos de aplicaciones de la minería de datos en internet
Data mining
Ejemplos de aplicaciones de la minería de datos en negocios, juegos ciencia e ingeniería
Data mining
Ejemplos de aplicaciones de la minería de datos en la medicina
Data mining
Una arquitectura para Data Mining
Deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
Data mining
Ejemplo del data warehouse
Página siguiente |