Monografias.com > Otros
Descargar Imprimir Comentar Ver trabajos relacionados

Estudio de Herramientas para limpiar Direcciones Postales



Partes: 1, 2

    1. Resumen
    2. Almacenes de
      Datos
    3. Limpieza y calidad de
      datos
    4. Segmentación
      y estandarización de direcciones
      postales
    5. Hidden
      Markov Models (HMM)
    6. Suavizamiento
      (Smoothing)
    7. Algoritmo de
      Viterbi
    8. Mejoras
      al HMM para la segmentación de
      direcciones
    9. Taxonomía de
      símbolos
    10. Distancia de
      Levenshtein
    11. Conclusiones
    12. Bibliografía

    RESUMEN

    En este trabajo se
    trata sobre la importancia de que los Almacenes de
    Datos contengan información con calidad, libre de
    suciedades y lo más detallada posible. Se pone atención a la segmentación como paso fundamental y de
    apoyo a otras tareas de limpieza de datos y,
    específicamente, en la segmentación de direcciones
    postales. Se
    explican de manera general técnicas y
    herramientas
    para llevar a cabo las tareas de limpieza de datos, especialmente
    de direcciones postales. Finalmente, se describen técnicas
    novedosas utilizadas para realizar de forma bastante
    satisfactoria la segmentación y normalización de direcciones
    postales.

    Palabras clave: Limpieza de datos, Modelos
    Ocultos de Markov, HMM.

    1. Almacenes
      de Datos.

    "Una organización puede ser rica en datos y
    pobre en información, si no sabe cómo identificar,
    resumir y categorizar los datos" (Madnick, 1993)

    La tecnología de los
    almacenes de
    datos o datawarehouses (DW), se encuadra dentro de la
    línea de evolución de las bases de datos
    hacia una mayor funcionalidad e inteligencia.

    Algunos los relacionan estrechamente con los sistemas de
    Inteligencia en el Negocio (Business Intelligence (BI)) y
    otros con los Sistemas para el Soporte a la Toma de
    Decisiones (Decision Support Systems (DSS)), pero en
    cualquier caso son considerados una solución integral y
    oportuna para apoyar la toma de decisiones y desarrollar
    exitosamente el negocio.

    Existen muchas definiciones para el DW. Quizá la
    más conocida fue propuesta por Inmon, considerado el padre
    de los Almacenes de Datos, en 1992: "Un DW es una
    colección de datos orientados a temas, integrados,
    no-volátiles y variante en el tiempo,
    organizados para soportar necesidades
    empresariales".

    En esta definición se plantea que deben
    conformarse orientados hacia materias o temas (por ejemplo,
    clientes o
    productos),
    con datos y metadatos perfectamente integrados y coherentes con
    respecto al nombre de las variables, los
    formatos de los campos, la medida de los atributos y la codificación de estructuras,
    con información histórica para comparar datos en
    distintos períodos de tiempo e identificar tendencias.
    Toda esta información, una vez incorporada al DW debe
    mantenerse, en general, invariable, cargándose pocas veces
    en el tiempo y no permitiendo actualizaciones
    frecuentes.

    Detrás de la arquitectura de
    un DW existe un conjunto básico de procesos de
    suma importancia para el mismo, entre los cuales se pueden
    mencionar algunos elementales como:

    • El proceso de
      extracción, que consiste en estudiar y entender
      los datos fuente, tomando aquellos que son de utilidad para
      el almacén.
    • El proceso de transformar a una forma
      presentable y de valor para
      los usuarios
    • La carga de los datos en el
      DW
    • Controles de calidad para asegurar que la
      misma sea correcta.

    De estos procesos, es importante para las empresas ponerle
    atención a la transformación de datos, donde
    se incluyen operaciones de
    corrección de errores, resolución de problemas de
    dominio,
    borrado de campos que no son de interés,
    generación de claves, agregación de
    información, etc.

    La transformación de datos es necesaria
    porque no siempre los datos están en la forma más
    adecuada para poder aplicar
    los métodos
    que hacen falta para la tarea que se ha de llevar a cabo y el
    modelo que se
    quiere obtener.

    Esta fase, aunque parezca sencilla, conlleva
    aproximadamente el 70% del esfuerzo en los proyectos de
    DW.

    1. Limpieza y
      calidad de datos

    "Every meaningful data warehouse
    application needs good data"

    Un asunto en DW que es universalmente reconocido, pero
    la mayoría de las veces ignorado, es la limpieza de datos
    de un almacén.
    Se han identificado tres temas fundamentales como los mayores
    problemas en el manejo de datos corporativos, que se personifican
    con frases muy comunes y de los cuales solo se atacan con
    fuerza los dos
    primeros aquí mencionados.

    • El acceso a datos: "Tenemos uno de los
      más grandes volúmenes de datos pero no podemos
      acceder a ellos".
    • Las herramientas de consulta: "Yo quiero un
      sistema que me
      muestre qué es importante y entonces preguntar por
      qué".
    • La integridad de los datos: "Nosotros sabemos
      que algunos de nuestros datos no son muy buenos. Por ejemplo,
      no tenemos una única lista mantenida de
      clientes"

    El problema de la limpieza de datos es poco tratado o
    evadido por muchas empresas, lo que conlleva no considerar
    adecuadamente el impacto negativo para el negocio de tener
    almacenada información deficiente.

    Un estudio realizado en el año 2005 plantea que
    :

    • "El 25% de nuestros datos son defectuosos, y un 48%
      de las empresas no invierten esfuerzos y dinero
      suficiente en la depuración y el mantenimiento de sus bases de
      datos."
    • "El éxito
      o fracaso en un proyecto
      Costumers Relations Management (CRM), DW,
      e-Business o
      Enterprise Resource Planning (ERP),
      depende en gran parte de la calidad de datos e
      información interna".
    • "El 75% de 600 empresas confesaron tener problemas
      internos serios por problemas de calidad de datos".

    Y prosigue la misma referencia : "Así, surge la
    pregunta: Si tan solicitadas son las bases de datos, si todos
    estamos de acuerdo en que la información de nuestros
    clientes y nuestros mercados es
    nuestro activo más importante, si la calidad de la
    información es el primer paso en cualquier proyecto de
    implantación de tecnología
    de información, entonces, ¿cómo puede
    convertirse en un problema?"

    Según la experiencia de ese autor, esta
    situación es básicamente debida a lo
    siguiente:

    • Hay mucha información con distintos
      orígenes.
    • La información es dinámica y sometida a constantes
      cambios.
    • Se tiende a infravalorar las carencias y sus
      consecuencias.
    • El no-reconocimiento de la importancia de la
      información y los datos.
    • Es un tema político: información es
      poder. Abordar un proyecto de calidad de datos, muchas veces
      implica cambios en la
      organización de la
      empresa.

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter