Monografias.com > Computación > Software
Descargar Imprimir Comentar Ver trabajos relacionados

Data WareHouse




Enviado por drgutierrez



    1. Los objetivos fundamentales de
      un Data WareHouse
    2. Los elementos básicos
      de un Data WareHouse
    3. Los procesos básicos
      del Data WareHouse (ETL)
    4. Bibliografía

    1. Introducción

    Que es un Data
    WareHouse?

    Es un repositorio de datos de muy
    fácil acceso, alimentado de numerosas fuentes,
    transformadas en grupos de
    información sobre temas específicos
    de negocios, para
    permitir nuevas consultas, análisis, reporteador y
    decisiones.

    Que es lo que le preocupa a los ejecutivos?

    Se tienen montañas de datos en la
    compañía, pero no podemos llegar a ellos
    adecuadamente. Nada enloquece más a los ejecutivos que dos
    personas presentando el mismo resultado de operación pero
    con diferentes números y los ejecutivos lo que buscan es
    ver la información pero desde diferentes ángulos,
    mostrando únicamente lo que es importante para tomar una
    decisión en la empresa,
    finalmente los ejecutivos saben que hay datos que nunca
    serán confiables, por lo que prefieren que se eviten en
    los reportes ejecutivos.

    Uno de los valores
    más importantes de una organización es la
    información.

    Estos valores
    normalmente son guardados por la
    organización de dos formas:

    • Los sistemas
      operacionales de registros
    • Y el Data Warehouse

    Crudamente hablando, los sistema
    operacionales de registros es
    donde los datos son depositados y el Data WareHouse es de donde
    se extraen eso datos.

    Los objetivos
    fundamentales de un Data WareHouse son:

    • Hace que la información de la
      organización sea accesible: los contenidos del Data
      WareHouse son entendibles y navegables, y el acceso a ellos son
      caracterizado por el rápido desempeño. Estos requerimientos no tienen
      fronteras y tampoco limites fijos. Cuando hablamos de
      entendible significa, que los niveles de la información
      sean correctos y obvios. Y Navegables significa el reconocer el
      destino en la pantalla y llegar a donde queramos con solo un
      clic. Rápido desempeño significa, cero tiempo de
      espera. Todo lo demás es un compromiso y por
      consiguiente algo que queremos mejorar.
    • Hacer que la información de la
      organización sea consistente: la información de
      una parte de la organización puede hacerse coincidir con
      la información de la otra parte de la
      organización. Si dos medidas de la organización
      tienen el mismo nombre, entonces deben significar la misma
      cosa. Y a la inversa, si dos medidas no significan la misma
      cosa, entonces son etiquetados diferentes. Información
      consistente significa, información de alta calidad.
      Significa que toda la información es contabilizada y
      completada. Todo lo demás es un compromiso y por
      consiguiente algo que queremos mejorar.
    • Es información adaptable y elástica: el
      Data WareHouse esta diseñado para cambios continuos.
      Cuando se le hacen nuevas preguntas al Data WareHouse, los
      datos existentes y las tecnologías no cambian ni se
      corrompen. Cuando se agregan datos nuevos al Data WareHouse,
      los datos existentes y las tecnologías tampoco cambian
      ni se corrompen. El diseño de Data Marts separados que hacen
      al Data WareHouse, deben ser distribuidos e incrementados. Todo
      lo demás es un compromiso y por consiguiente algo que
      queremos mejorar.
    • Es un seguro baluarte
      que protege los valores de la información: el Data
      WareHouse no solamente controla el acceso efectivo a los datos,
      si no que da a los dueños de la información gran
      visibilidad en el uso y abusos de los datos, aún
      después de haber dejado el Data WareHouse. Todo lo
      demás es un compromiso y por consiguiente algo que
      queremos mejorar.
    • Es la fundación de la toma de
      decisiones: el Data WareHouse tiene los datos correctos
      para soportar la toma de decisiones. Solo hay una salida
      verdadera del Data WareHouse: las decisiones que son hechas
      después de que el Data WareHouse haya presentado las
      evidencias.
      La original etiqueta que preside el Data WareHouse sigue siendo
      la mejor descripción de lo que queremos construir:
      un sistema de soporte a las decisiones.

    Los elementos
    básicos de un Data WareHouse

    • Sistema fuente: sistemas operacionales de registros
      donde sus funciones son
      capturar las transacciones del negocio. A los sistemas fuentes
      también se le conoce como Legacy System.
    • Área de trafico de datos: es un área de
      almacenamiento y grupo de
      procesos,
      que limpian transforman, combinan, remover los duplicados,
      guardan, archivan y preparan los datos fuente para ser usados
      en el Data WareHouse.
    • Servidor de presentación: la maquina física objetivo en
      donde los datos del Data WareHouse son organizados y
      almacenados para queries directos por los usuarios finales,
      reportes y otras aplicaciones.
    • Modelo dimensional: una disciplina
      especifica para el modelado de datos que es una alternativa
      para los modelos de
      entidad – relación.
    • Procesos de negocios: un coherente grupo de
      actividades de negocio que hacen sentido a los usuarios del
      negocio del Data WareHouse.
    • Data Mart: un subgrupo lógico del Data
      WareHouse completo.
    • Data WareHouse: búsquedas fuentes de datos de
      la empresa. Y es
      la unión de todos los data marts que la
      constituyen.
    • Almacenamiento operacional de datos: es el punto de
      integración por los sistemas
      operacionales. Es el acceso al soporte de decisiones por los
      ejecutivos.
    • OLAP: actividad general de búsquedas para
      presentación de texto y
      números del Data WareHouse, también un estilo
      dimensional especifico de búsquedas y
      presentación de información y que es
      ejemplificada por vendedores de OLAP.
    • ROLAP: un grupo de interfases de usuarios y
      aplicaciones que le dan a la base de
      datos relacional un estilo dimensional.
    • MOLAP: un grupo de interfases de usuarios,
      aplicaciones y propietarios de tecnología de bases de datos
      que tienen un fuerte estilo dimensional.
    • Aplicaciones para usuarios finales: una
      colección de herramientas
      que hacen los queries, analizan y presentan la
      información objetivo para el soporte de las necesidades
      del negocio.
    • Herramientas de acceso a datos por usuarios finales:
      un cliente de Data
      WareHouse.
    • Ad Hoc Query Tool: un tipo especifico de herramientas
      de acceso a datos por usuarios finales que invita al usuario a
      formas sus propios queries manipulando directamente las tablas
      relacionales y sus uniones.
    • Modelado de aplicaciones: un sofisticado tipo de
      cliente de Data WareHouse con capacidades analíticas que
      transforma o digiere las salidas del Data
      WareHouse.
    • Meta Data: toda la información en el ambiente del
      Data WareHouse que no son así mismo los datos
      actuales.

    Los procesos
    básicos del Data WareHouse (ETL)

    • Extracción: este es el primer paso de obtener
      la información hacia el ambiente del Data
      WareHouse.
    • Transformación: una vez que la
      información es extraída hacia el área de
      trafico de datos, hay posibles paso de transformación
      como; limpieza de la información, tirar la basura que
      no nos sirve, seleccionar únicamente los campos
      necesarios para el Data WareHouse, combinar fuentes de datos,
      haciéndolas coincidir por los valores de las llaves,
      creando nuevas llaves para cada registro de una
      dimensión.
    • Carga: al final del proceso de
      transformación, los datos están en forma para ser
      cargados.

    Las razones básicas de porque una
    organización implementa Data WareHouse:

    Para realizar tareas en los servidores y
    discos, asociados a queries y reportes en servidores y discos que
    no son utilizados por sistemas de proceso de
    transacciones.

    Muchas de las empresas quieren
    instalar sistemas de procesos de transacciones para que haya una
    alta probabilidad de
    que las transacciones sean completadas en un tiempo razonable.
    Estos sistemas de procesos de transacciones hacen que las
    transacciones y peticiones sean más rápidas en
    menores tiempos dado a que los queries y reportes consumen mucho
    más de su límite permitido en los recursos de
    servidores y discos, por tal motivo las empresas han implementado
    una arquitectura de
    Data WareHouse que utiliza sus servidores y discos por separado
    para algunos de los queries y reportes.

    Para utilizar modelos de datos o tecnologías
    de servidores que agilizan los queries y reportes, y que no son
    apropiados para los procesos de transacciones.

    Existen maneras de modelar los datos que usualmente
    agilizan los queries y reportes (ejemplo: el esquema del modelo
    estrella) y que no son apropiados para los procesos de
    transacciones porque la técnica de modelado bajaría
    el rendimiento y complicaría el proceso de transacciones.
    También existen tecnologías que aceleran el proceso
    de queries y reportes pero baja la velocidad en
    el proceso de transacciones (ejemplo: la indexación de
    bitmaps) y tecnología de servidores que incrementan la
    velocidad en el proceso de transacciones, pero que disminuyen la
    velocidad del proceso de queries y reportes (ejemplo: La
    tecnología de recuperación de transacciones). Todo
    esto entonces esta en el cómo se hacen los modelos de
    datos y que tecnología se utiliza, inclusive que productos se
    adquieren para el impacto de los procesos de queries y
    reportes.

    Para proveer un ambiente donde relativamente una muy
    poca cantidad de conocimiento
    de los aspectos técnicos de tecnología de bases de
    datos es requerida para escribir y mantener queries y
    reportes.

    Frecuentemente un Data WareHouse puede ser instalado de
    manera que los queries y reportes puedan ser escritos por
    personal sin
    tanto conocimiento técnico, lo que hace que su mantenimiento
    y construcción se haga sin más
    complejidad.

    Para proveer un repositorio del sistema de proceso de
    transacciones limpio que puede ser reportado y que no
    necesariamente requiere que se arregle el sistema de proceso de
    transacciones.

    El Data WareHouse provee la oportunidad de limpiar los
    datos sin cambiar los sistemas de proceso de transacciones, sin
    embargo algunas implementaciones de Data WareHouse provee el
    significado para capturar las correcciones hechas a los datos del
    Data WareHouse y alimenta las correcciones hacia el sistema de
    proceso de transacciones. Muchas veces hace más sentido
    hacer las correcciones de esta manera que aplicar las
    correcciones directamente al sistema de proceso de
    transacciones.

    Para hacer los queries y reportes de datos
    básicamente más fácil de los
    múltiples procesos de transacciones y de las fuentes
    externas y de los datos que deben ser almacenados solamente para
    el propósito de hacer queries y reportes.

    Desde hace mucho tiempo que las compañías
    necesitan reportes con información de múltiples
    sistemas y han hecho extracciones de datos para después
    correrlos bajo la lógica
    de búsqueda combinando la información de las
    extracciones con los reportes generados, lo que en muchas
    ocasiones es una buena estrategia. Pero
    cuando se tienen muchos datos y las búsquedas se vuelven
    muy pesadas y después limpiar la búsqueda, entonces
    lo apropiado sería un Data WareHouse.

    Bibliografía

    Laudon Keneth C., Laudon Jane P. , Sistemas de
    Información Gerencial
    (8ª ed.)

    México, Pearson Educación,
    (2004)

    http://www.dwinfocenter.org/casefor.html

    http://datawarehouse.ittoolbox.com/

    Ralph Kimball, Laua Reeves, Margy Ross, Warren
    ….The Data WareHouse Lifecycle Toolkit

    Wiley Edition

      

     

     

    Autor:

    Damián Gutiérrez
    Echeverría

    Petróleos Mexicanos (Corporativo)

    Unidad de Recursos Informáticos

    México, D.F.

    Universidad Iberoamericana

    Maestría en Administración de Servicios de
    Tecnología de Información

    Primer Semestre

    México, D.F.

    Categoría: Tecnología

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter