- Los objetivos fundamentales de
un Data WareHouse - Los elementos básicos
de un Data WareHouse - Los procesos básicos
del Data WareHouse (ETL) - Bibliografía
1. Introducción
Que es un Data
WareHouse?
Es un repositorio de datos de muy
fácil acceso, alimentado de numerosas fuentes,
transformadas en grupos de
información sobre temas específicos
de negocios, para
permitir nuevas consultas, análisis, reporteador y
decisiones.
Que es lo que le preocupa a los ejecutivos?
Se tienen montañas de datos en la
compañía, pero no podemos llegar a ellos
adecuadamente. Nada enloquece más a los ejecutivos que dos
personas presentando el mismo resultado de operación pero
con diferentes números y los ejecutivos lo que buscan es
ver la información pero desde diferentes ángulos,
mostrando únicamente lo que es importante para tomar una
decisión en la empresa,
finalmente los ejecutivos saben que hay datos que nunca
serán confiables, por lo que prefieren que se eviten en
los reportes ejecutivos.
Uno de los valores
más importantes de una organización es la
información.
Estos valores
normalmente son guardados por la
organización de dos formas:
- Los sistemas
operacionales de registros - Y el Data Warehouse
Crudamente hablando, los sistema
operacionales de registros es
donde los datos son depositados y el Data WareHouse es de donde
se extraen eso datos.
Los objetivos
fundamentales de un Data WareHouse son:
- Hace que la información de la
organización sea accesible: los contenidos del Data
WareHouse son entendibles y navegables, y el acceso a ellos son
caracterizado por el rápido desempeño. Estos requerimientos no tienen
fronteras y tampoco limites fijos. Cuando hablamos de
entendible significa, que los niveles de la información
sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un
clic. Rápido desempeño significa, cero tiempo de
espera. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar. - Hacer que la información de la
organización sea consistente: la información de
una parte de la organización puede hacerse coincidir con
la información de la otra parte de la
organización. Si dos medidas de la organización
tienen el mismo nombre, entonces deben significar la misma
cosa. Y a la inversa, si dos medidas no significan la misma
cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad.
Significa que toda la información es contabilizada y
completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar. - Es información adaptable y elástica: el
Data WareHouse esta diseñado para cambios continuos.
Cuando se le hacen nuevas preguntas al Data WareHouse, los
datos existentes y las tecnologías no cambian ni se
corrompen. Cuando se agregan datos nuevos al Data WareHouse,
los datos existentes y las tecnologías tampoco cambian
ni se corrompen. El diseño de Data Marts separados que hacen
al Data WareHouse, deben ser distribuidos e incrementados. Todo
lo demás es un compromiso y por consiguiente algo que
queremos mejorar. - Es un seguro baluarte
que protege los valores de la información: el Data
WareHouse no solamente controla el acceso efectivo a los datos,
si no que da a los dueños de la información gran
visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data WareHouse. Todo lo
demás es un compromiso y por consiguiente algo que
queremos mejorar. - Es la fundación de la toma de
decisiones: el Data WareHouse tiene los datos correctos
para soportar la toma de decisiones. Solo hay una salida
verdadera del Data WareHouse: las decisiones que son hechas
después de que el Data WareHouse haya presentado las
evidencias.
La original etiqueta que preside el Data WareHouse sigue siendo
la mejor descripción de lo que queremos construir:
un sistema de soporte a las decisiones.
Los elementos
básicos de un Data WareHouse
- Sistema fuente: sistemas operacionales de registros
donde sus funciones son
capturar las transacciones del negocio. A los sistemas fuentes
también se le conoce como Legacy System. - Área de trafico de datos: es un área de
almacenamiento y grupo de
procesos,
que limpian transforman, combinan, remover los duplicados,
guardan, archivan y preparan los datos fuente para ser usados
en el Data WareHouse. - Servidor de presentación: la maquina física objetivo en
donde los datos del Data WareHouse son organizados y
almacenados para queries directos por los usuarios finales,
reportes y otras aplicaciones. - Modelo dimensional: una disciplina
especifica para el modelado de datos que es una alternativa
para los modelos de
entidad – relación. - Procesos de negocios: un coherente grupo de
actividades de negocio que hacen sentido a los usuarios del
negocio del Data WareHouse. - Data Mart: un subgrupo lógico del Data
WareHouse completo. - Data WareHouse: búsquedas fuentes de datos de
la empresa. Y es
la unión de todos los data marts que la
constituyen. - Almacenamiento operacional de datos: es el punto de
integración por los sistemas
operacionales. Es el acceso al soporte de decisiones por los
ejecutivos. - OLAP: actividad general de búsquedas para
presentación de texto y
números del Data WareHouse, también un estilo
dimensional especifico de búsquedas y
presentación de información y que es
ejemplificada por vendedores de OLAP. - ROLAP: un grupo de interfases de usuarios y
aplicaciones que le dan a la base de
datos relacional un estilo dimensional. - MOLAP: un grupo de interfases de usuarios,
aplicaciones y propietarios de tecnología de bases de datos
que tienen un fuerte estilo dimensional. - Aplicaciones para usuarios finales: una
colección de herramientas
que hacen los queries, analizan y presentan la
información objetivo para el soporte de las necesidades
del negocio. - Herramientas de acceso a datos por usuarios finales:
un cliente de Data
WareHouse. - Ad Hoc Query Tool: un tipo especifico de herramientas
de acceso a datos por usuarios finales que invita al usuario a
formas sus propios queries manipulando directamente las tablas
relacionales y sus uniones. - Modelado de aplicaciones: un sofisticado tipo de
cliente de Data WareHouse con capacidades analíticas que
transforma o digiere las salidas del Data
WareHouse. - Meta Data: toda la información en el ambiente del
Data WareHouse que no son así mismo los datos
actuales.
Los procesos
básicos del Data WareHouse (ETL)
- Extracción: este es el primer paso de obtener
la información hacia el ambiente del Data
WareHouse. - Transformación: una vez que la
información es extraída hacia el área de
trafico de datos, hay posibles paso de transformación
como; limpieza de la información, tirar la basura que
no nos sirve, seleccionar únicamente los campos
necesarios para el Data WareHouse, combinar fuentes de datos,
haciéndolas coincidir por los valores de las llaves,
creando nuevas llaves para cada registro de una
dimensión. - Carga: al final del proceso de
transformación, los datos están en forma para ser
cargados.
Las razones básicas de porque una
organización implementa Data WareHouse:
Para realizar tareas en los servidores y
discos, asociados a queries y reportes en servidores y discos que
no son utilizados por sistemas de proceso de
transacciones.
Muchas de las empresas quieren
instalar sistemas de procesos de transacciones para que haya una
alta probabilidad de
que las transacciones sean completadas en un tiempo razonable.
Estos sistemas de procesos de transacciones hacen que las
transacciones y peticiones sean más rápidas en
menores tiempos dado a que los queries y reportes consumen mucho
más de su límite permitido en los recursos de
servidores y discos, por tal motivo las empresas han implementado
una arquitectura de
Data WareHouse que utiliza sus servidores y discos por separado
para algunos de los queries y reportes.
Para utilizar modelos de datos o tecnologías
de servidores que agilizan los queries y reportes, y que no son
apropiados para los procesos de transacciones.
Existen maneras de modelar los datos que usualmente
agilizan los queries y reportes (ejemplo: el esquema del modelo
estrella) y que no son apropiados para los procesos de
transacciones porque la técnica de modelado bajaría
el rendimiento y complicaría el proceso de transacciones.
También existen tecnologías que aceleran el proceso
de queries y reportes pero baja la velocidad en
el proceso de transacciones (ejemplo: la indexación de
bitmaps) y tecnología de servidores que incrementan la
velocidad en el proceso de transacciones, pero que disminuyen la
velocidad del proceso de queries y reportes (ejemplo: La
tecnología de recuperación de transacciones). Todo
esto entonces esta en el cómo se hacen los modelos de
datos y que tecnología se utiliza, inclusive que productos se
adquieren para el impacto de los procesos de queries y
reportes.
Para proveer un ambiente donde relativamente una muy
poca cantidad de conocimiento
de los aspectos técnicos de tecnología de bases de
datos es requerida para escribir y mantener queries y
reportes.
Frecuentemente un Data WareHouse puede ser instalado de
manera que los queries y reportes puedan ser escritos por
personal sin
tanto conocimiento técnico, lo que hace que su mantenimiento
y construcción se haga sin más
complejidad.
Para proveer un repositorio del sistema de proceso de
transacciones limpio que puede ser reportado y que no
necesariamente requiere que se arregle el sistema de proceso de
transacciones.
El Data WareHouse provee la oportunidad de limpiar los
datos sin cambiar los sistemas de proceso de transacciones, sin
embargo algunas implementaciones de Data WareHouse provee el
significado para capturar las correcciones hechas a los datos del
Data WareHouse y alimenta las correcciones hacia el sistema de
proceso de transacciones. Muchas veces hace más sentido
hacer las correcciones de esta manera que aplicar las
correcciones directamente al sistema de proceso de
transacciones.
Para hacer los queries y reportes de datos
básicamente más fácil de los
múltiples procesos de transacciones y de las fuentes
externas y de los datos que deben ser almacenados solamente para
el propósito de hacer queries y reportes.
Desde hace mucho tiempo que las compañías
necesitan reportes con información de múltiples
sistemas y han hecho extracciones de datos para después
correrlos bajo la lógica
de búsqueda combinando la información de las
extracciones con los reportes generados, lo que en muchas
ocasiones es una buena estrategia. Pero
cuando se tienen muchos datos y las búsquedas se vuelven
muy pesadas y después limpiar la búsqueda, entonces
lo apropiado sería un Data WareHouse.
Laudon Keneth C., Laudon Jane P. , Sistemas de
Información Gerencial (8ª ed.)
México, Pearson Educación,
(2004)
http://www.dwinfocenter.org/casefor.html
http://datawarehouse.ittoolbox.com/
Ralph Kimball, Laua Reeves, Margy Ross, Warren
….The Data WareHouse Lifecycle Toolkit
Wiley Edition
Autor:
Damián Gutiérrez
Echeverría
Petróleos Mexicanos (Corporativo)
Unidad de Recursos Informáticos
México, D.F.
Universidad Iberoamericana
Maestría en Administración de Servicios de
Tecnología de Información
Primer Semestre
México, D.F.
Categoría: Tecnología