Análisis de los diferentes enfoques para el diseño de almacenes de datos
Resumen
A partir de la introduccion del modelo de datos
multidimensional como formalismo de modelado para Almacenes de
Datos (AD), se han realizado distintas propuestas metodologicas
para capturar la estructura del AD a nivel conceptual. Las
soluciones propuestas parten de diferentes aspectos de
diseño: los requisitos de usuario, el analisis del esquema
de la base de datos operacional o una combinacion de ambos
(tecnicas mixtas).
Palabras Clave—Almacen de Datos, Modelo
Multidimensional, Diseño de Almacenes de
Datos.
1
INTRODUCCION
El desarrollo en las ultimas decadas, de la tecnologia
de bases de datos ha conducido a una situacion en la
que las organizaciones disponen de grandes volumenes de datos con
informacion historica, almacenados en soporte
informatico.
Asi, una vez satisfecha la necesidad de disponer de un
sistema de informacion, las organizaciones exigen mas
prestaciones a sus sistemas ( Sistemas de Informacion
Transaccional ), y contemplan la posibilidad de poder extraer
conocimiento de la informacion historica almacenada, conocimiento
que les permita analizar la organizacion, prever su evolucion y
tomar decisiones estrategicas para el futuro. Este es el punto de
partida de la tecnologia de los AD. Las caracteristicas
especiales de volumen y explotacion de los datos en este tipo de
sistemas, asi como el especial objetivo de uso, han abierto
nuevas direcciones de estudio e investigacion en el area de bases
de datos: nuevas estructuras de almacenamiento, optimizacion de
consultas, tecnicas de indexacion, herramientas de consulta,
metodologias de diseño.
En este articulo se hara un analisis de las
tecnicas de diseño de algunos enfoques propuestos para el
diseño de AD, con el objetivo de evaluar las
ventajas y desventajas de cada uno de ellos con respecto a los
demas.
2 CONCEPTOS
BASICOS
A continuacion se definen algunos conceptos para un
entendimiento mas claro de lo que trata el presente
trabajo:
2.1 Sistema de
Almacen de Datos
Un Sistema de AD es una eficaz herramienta de
organizacion y analisis de los complejos volumenes de informacion
que las compañias generan, dicha informacion permite
posterior- mente el desarrollo de estrategias mas efec- tivas y
rentables para la toma de decisiones. Su arquitectura se compone
de varias ca- pas: las fuentes de datos, los procesos de
extraccion, transformacion y carga (ETL), el repositorio, los
cubos y las aplicaciones de ex- plotacion. Asimismo, el modelado
multidimen- sional (MD) es considerado como el paradigma para
estructurar el AD.
2.2 Modelado
Multidimensional(MD)
El MD es una tecnica para modelar bases de datos simples
y entendibles al usuario final, busca ofrecer ademas una vision
clara respecto a la operacion del negocio. La idea fundamental es
que el usuario visualice facilmente la relacion que existe entre
los distintos componentes del modelo [30].
El MD se basa en la dualidad hecho- dimension, donde los
hechos son descritos en base a las dimensiones. Un hecho
representa la actividad objeto de analisis mientras que las
dimensiones muestran los diferentes puntos de vista para su
estudio.
2.3 Data
Mart(DM)
Un DM es un pequeño AD con un alcance restringido
de contenido y soporte para proce- samiento analitico, cubriendo
el analisis de un problema de un dominio en particular
[20].
3 DISEñO
DE AD
Un proyecto de AD es similar en muchos as- pectos a
cualquier desarrollo de proyecto de software y requiere la
definicion de las distintas actividades que deben ser realizadas,
las cuales estan relacionados con la obtencion de requisi- tos,
diseño y aplicacion en una plataforma op- erativa, entre
otras cosas. En la actualidad existen publicaciones se han
dedicado al desarrollo AD, algunas de ellas[4, 5, 6] han sido
escritas por profesionales y se basan en su experiencia en la
construccion de AD. Por otra parte, la comunidad cientifica ha
propuesto una gran variedad de enfoques para el desarrollo de AD
[7,8,9,10]. Sin embargo, muchos de estos enfoques son a menudo
demasiado complejos para ser utilizados en entornos del mundo
real. Como consecuencia de ello, todavia hay una falta de una
metodologia general que podria guiar a los desarrolladores en las
diferentes etapas del proceso de desarrollo de AD.
3.1 Enfoques
actuales de Diseño de AD
Hay una gran variedad de enfoques que se han propuesto
para el diseño de AD. Se diferencian en varios aspectos,
como lo son las distintas fases que componen el proceso de
diseño y los metodos utilizados para la especificacion de
requisitos. En esta seccion se analizan algunas de las
caracteristicas esenciales de los enfoques actuales de acuerdo a
estos aspectos:
• Fases de diseño.-
Relativamente pocas publicaciones, [8,10,12]) han propuesto un
metodo global de diseño de AD. Sin embargo, estas
publicaciones no estan de acuerdo en las fases que deben ser
seguidas en el diseño de AD. Algunos autores [27,28],
consideran que las fases tradicionales de desarrollo de bases de
datos operacionales, es decir, la especificacion de requisitos,
diseño conceptual, diseño logico y diseño
fisico tambien se pueden utilizar en el desarrollo de AD. Otros
[10,28] autores ignoran algunas de estas fases, especialmente la
fase de diseño conceptual. Muchas publicaciones
[13,20,23,24] se refieren a una sola de las fases, sin considerar
las transformaciones posteriores necesarias para alcanzar
soluciones viables.
• Enfoque dirigido por los
requisitos de usuario.- Este enfoque considera que los usuarios
juegan un papel fundamental en el analisis de los requisitos y
deben participar activamente en el esclarecimiento de los hechos
y dimensiones correspondientes [9,12,19,20,21,23,25].
• Enfoque dirigido por los
datos.- En este enfoque, el esquema de AD es obtenido mediante el
analisis de las fuentes de datos existentes, algunos de los
enfoques propuestos requieren representaciones conceptuales de
los sistemas operativos de origen, en la mayoria de los casos se
basan en el modelo ER. Otros enfoquess utilizan las tablas
relacionales para representar las fuentes de datos operacionales.
En general, no se requiere la participacion de los usuarios [11],
sin embargo, en algunas tecnicas los usuarios necesitan analizar
bien el esquema obtenido para confirmar la exactitud de las
estructuras derivadas, o identificar algunos hechos y medidas
como punto de partida para el diseño de esquemas
multidimensionales [7,10].
• Enfoque combinado o
mixto.- Este enfoque es una combinacion del enfoque dirigido por
los requisitos de negocios o de usuario y el enfoque dirigido por
los datos, teniendo en cuenta la demanda de estos y el analisis
de las bases de datos operacionales de origen. En una situacion
ideal, estos dos componentes deben coincidir, es decir, toda la
informacion que los usuarios o los negocios requieren para fines
de analisis debe ser suministrada por los datos incluidos en las
bases de datos peracionales de origen.
3.2 Enfoques
dirigidos por los requisitos de usuario
A continuacion se presentan algunos de los enfoques que
derivan el AD a partir del analisis de los requisitos de
usuario:
• Trujillo et al. [13]
presentaron un enfoque para la inclusion de las metas de negocio
en el AD basandose en el analisis de los requisitos. Estos
requisitos se transforman en un modelo multidimensional. Estos
autores utilizaron el marco de trabajo i*, el cual se basa en dos
tipos de modelos: un modelo de dependencia estrategica, que
describe la dependencia entre los actores en un contexto
organizacional, y un modelo de razones estrategicas, que se
utiliza para entender los intereses de los actores y la forma en
que podrian abordarse. Despues adaptaron los modelos en el
contexto de AD, dando orientaciones especificas para la
construccion del AD, para luego transformarlos a un modelo
multidimensional conceptual basado en la notacion UML.
Como conclusiones de esta propuesta podemos mencionar
que el uso de una notacion estandarizada para representar el
esquema conceptual del AD, hace que los usuarios no tengan que
aprender una notacion propia del diseñador, aislada y
dificil de entender, ademas de que actualmente existe una
tendencia enla Ingenieria de Software a de utilizar medios
estandarizado en los procesos de desarrollo de software, un
ejemplo de ellos es UML.
Por otra parte existe una similitud con los enfoque
[19,24], ya que tambien parten del analisis de los requisitos de
usarios, sin embargo la principal diferencia entre ellos es que
[19 y 24] no utilizan una notacion estandarizada para representar
dichos requisitos.
• Kumar et al. [23]
proponen el modelo AGDI (Agent-Goal-decision-Information), para
dar soporte a la Ingenieria de Requisitos (IR).
Los autores utilizan el concepto de agente y meta
durante la etapa de analisis de los requisitos del diseño
de AD, en esta etapa se deben identificar a los agentes que se
encuentran dentro del dominio del problema y se consideran
actores del sistema. Estos actores, dependen de alguna meta a ser
realizada.
Para modelar los requisitos se diseña en primer
lugar un modelo de la organizacion de actividades que permita
analizar el contexto de organizacion donde el sistema de AD
trabajara. Despues,se hace un modelado de la meta, donde se
identifican las partes interesadas como agentes internos o
externos y sus dependencias relacionadas para llevar a cabo la
meta que deberarealizar cada agente. En esta etapa se recibe como
entrada el modelo organizacional obtenido en el primer paso,
dependiendo de la meta a cumplir, estas metas son dividas a su
vez en metas mas simples utilizan relaciones ORs/Ands,
dependiendo de su complejidad.
Las metas identificadas son utilizadas para
identificar los hechos mas relevantes de la organizacion, estas
son divididas por medio de relaciones semanticas ORs/Ands, y
serviran para la identificacion de las dimensiones navegando en
el modelo atraves de estas relaciones.
Como conclusiones de este enfoque podemos decir que,
tiene algunas similitudes con el enfoque de [19], ya que ambos
utilizan los conceptos Agente y Meta para hacer el modelado de
los requisitos de usuario, pero la principal diferiencia entre
ellos dos es que el enfoque propuesto por Kumar et. al. no puede
ser empleado como tecnica mixta, ya que solamente se enfoca en el
analisis de los requisitos.
• Nair et
al.[24], presentan un enfoque para el analisis de los requisitos.
Este consiste de varios pasos, iniciando con la especificacion de
los requisitos, que son modelados de manera grafica. A partir de
las consultas que deseen los usuarios se genera un arbol de
consultas, que consistira en identificar los hechos relevantes de
la organizacion asi como sus atributos, la siguiente etapa es
construir un Esquema Intermedio haciendo uso del modelo de
requisitos y el arbol de consultas, finalmente se deriva el
esquema multidimensional del AD.
EL PRESENTE TEXTO ES SOLO UNA SELECCION DEL TRABAJO
ORIGINAL.
PARA CONSULTAR LA MONOGRAFIA COMPLETA SELECCIONAR LA OPCION
DESCARGAR DEL MENU SUPERIOR.