Minería de datos para los sistemas gestores de bases de datos
Resumen
Muchas de las decisiones importantes que se toman
alrededor del mundo se basan en observaciones y/o eventos que han
sido previamente registrados de alguna forma en una base o modelo
de datos. Esta informacion puede llevar a analistas de mercado a
tomar decisiones en cuanto a la compra o venta de acciones, a
medicos que trabajan en la obtencion de tecnicas para detectar
enfermedades a tiempo, etc.
Palabras Clave—Mineria de
Datos, Tecnicas de Mineria de Datos, Almacen de Datos, Algoritmos
de Mineria de Datos.
1
INTRODUCCION
En la actualidad es un gran reto para las organizaciones
manejar grandes volumenes de informacion, ya que los datos que se
llegan a almacenar pueden contener demasiadas propiedades o
atributos que causan que la informacion sea complicada de
visualizar a primera instancia asi tambien las bases de datos
pueden llegar a almacenar miles o millones de instancias de
datos, las cuales pueden llegar a variar despues de cientos o
miles de muestras. Esto hace que en ocasiones las organizaciones
no sean capaces de utilizar al maximo esta informacion, pues no
la tienen organizada adecuadamente y carecen de los metodos
necesarios para procesarla y analizarla de la mejor manera.
Debido a lo importante que es extraer el conocimiento guardado en
estos datos, ha surgido lo que se conoce como Mineria de
Datos.
Esta investigacion trataralos conceptos y aplicaciones
de Mineria de Datos, asi tambien se abordaran temas relacionados
a los Sistemas Gestores de Bases de Datos comerciales y Libres
que cuentan con tecnicas de Mineria de Datos para el tratamiento
de la informacion.
Los SGBD que analizaremos son: SQL Server,
Oracle, MySQL y PostgreSQL.
2 CONCEPTOS
BASICOS
Para entender mejor de lo que se trata esta
investigacion, describiremos los conceptos de Mineria de Datos,
Tecnicas de Mineria de Datos, Almacen de Datos.
2.1 ¿Que
es un Almacen de Datos?
El almacenamiento de datos se define como un proceso de
organizacion de grandes cantidades de datos de diversos tipos
"guardados" en la organizacion con el objetivo de facilitar la
recuperacion de la misma con fines analiticos.
El almacenamiento de datos tiene un gran
importancia en el proceso de mineria de datos pues en cierta
medida, permite la recuperacion o al menos la referencia a
determinados conjuntos de datos de importancia para un proceso de
toma de decision dado. En la actualidad existe gran variedad de
sistemas comerciales y libres para el almacenamiento de datos
entre los que se destacan Oracle, MS SQL Server, PostgreSQL,
MySQL, entre otros.
2.2 Mineria de
Datos
La mineria de datos es la extraccion de
informacion implicita, desconocida o previamente ignorada, que
puede ser potencialmente util, de un conjunto de
datos.
Se puede considerar a la mineria de datos como una
coleccion de diferentes tecnicas que sirven para inducir el
conocimiento e informacion de una manera estructurada de un gran
conjunto de datos.
La mineria de datos ayuda a las organizaciones a
encontrar informacion que no es perceptible de forma directa,
como por ejemplo patrones de comportamiento, relaciones,
asociaciones, etc., que nos permitan tomar mejores decisiones. A
traves del analisis del pasado, y aplicando algoritmos, se
construyen predicciones que nos permiten mejorar nuestra
eficiencia y conseguir asi una mayor rentabilidad de la actividad
de negocio, y tambien se le relaciona con el descubrimiento del
conocimiento en bases de datos conocido como Knowledge Data
Discovery (KDD).
2.3 Tecnicas de
Mineria de Datos
Las tecnicas de mineria de datos se emplean para mejorar
el rendimiento de procesos de negocio o industriales en los que
se manejan grandes volumenes de informacion estructurada y
almacenada en bases de datos. Por ejemplo, se usan con exito en
aplicaciones de control de procesos productivos, como herramienta
de ayuda a la planificacion y a la decision en marketing,
finanzas, etc.
La mineria de datos tiene una incidencia en diferentes
disciplinas como la estadistica, la inteligencia artificial, los
aprendizajes de maquina, el reconocimiento de patrones,
etc.
Esta se basa en diferentes tipos de tecnicas como redes
neuronales artificiales, arboles de decision, algoritmos
geneticos, el metodo del vecino mas cercano y las reglas de
induccion, entre otras.
3 MINERIA DE
DATOS SQL SERVER
SQL Server una plataforma global de base de datos que
ofrece administracion de datos empresariales con herramientas
integradas de in teligencia empresarial (BI). El motor de la
base de datos SQL Server es un almacenamiento seguro
y confiable tanto para datos relacionales como estructurados, lo
que permite crear y administrar aplicaciones de datos altamente
disponibles y con mayor rendimiento para utilizarse en diferentes
organizaciones.
3.1 Mineria de
Datos SQL Server 2005
Microsoft SQL Server 2005 ofrece un entorno integrado
para crear modelos de mineria de datos y trabajar con ellos, este
entorno es la tecnologia Business Intelligence que permite
construir modelos analiticos complejos e integrar esos modelos
con las operaciones comerciales en diferentes tipos de negocios,
proporcionando acceso continuo a aplicaciones de amplia difusion
e informes, dando cobertura a todos los aspectos del proceso de
toma de decisiones.
Microsoft SQL Server 2005 incorpora la herramienta SQL
Analysis Server (SSAS), la cual facilita la creacion de
sofisticadas soluciones de procesamiento analitico en linea
(OLAP) y mineria de datos. Las herramientas de Analysis Services
proporcionan la capacidad de diseñar, crear y administrar
cubos y modelos de mineria de datos de los almacenes de datos,
permiten que el cliente pueda obtener acceso a los datos de la
mineria de datos, asi como identificar reglas y patrones en los
datos, y asi determinar las razones por las que suceden las cosas
y predecir lo que puede pasar en el futuro.
Cuando se crea una solucion de mineria de datos en
Analysis Services, primero se crea un modelo que describe el
problema y despues se procesan los datos mediante un algoritmo
que genera un modelo matematico de ellos, un proceso que se
conoce como entrenamiento del modelo. A continuacion, puede
explorar visualmente el modelo de mineria de datos o
crear consultas de prediccion en el. Analysis Services
puede utilizar conjuntos de datos a partir de bases de datos
relacionales u OLAP, e incluye una variedad de algoritmos que se
pueden usar para analizar estos datos a traves de un modelo UDM o
directamente a partir de un almacen de datos fisico.
Entre las facilidades para realizar Mineria
de Datos se cuentan:
• El procesamiento de los
modelos de una misma estructura de mineria ocurre en paralelo, en
una sola lectura de los datos.
• Proporciona mas de 12
visores de resultados para los algoritmos que ayudaran a
comprender mejor los patrones encontrados en el proceso de
mineria.
• Proporciona graficos de
elevacion, de beneficios y una matriz de clasificacion que
permite establecer una comparacion de lo real con lo previsto;
para contrastar y comparar la calidad de los modelos.
• Posee un lenguaje para la
creacion de consultas de mineria (DMX) similar al SQL que
facilita la tarea de creacion de aplicaciones de mineria de
datos.
• Cuenta con
los algoritmos de mineria mas avanzados: Naive Bayes,
Clustering,
3.2 Algoritmos de
mineria de datos de Analysis Services
El algoritmo de mineria de datos es el mecanismo que
crea un modelo de mineria de datos. Para crear un modelo, un
algoritmo analiza primero un conjunto de datos y luego busca
patrones y tendencias especificos. El algoritmo utiliza los
resultados de este analisis para definir los parametros del
modelo de mineria de datos. A continuacion, estos parametros se
aplican en todo el conjunto de datos para extraer patrones
procesables y estadisticas detalladas.
EL PRESENTE TEXTO ES SOLO UNA SELECCION DEL TRABAJO
ORIGINAL.
PARA CONSULTAR LA MONOGRAFIA COMPLETA SELECCIONAR LA OPCION
DESCARGAR DEL MENU SUPERIOR.