En este trabajo se trata sobre la importancia de que los Almacenes de Datos contengan información con calidad, libre de suciedades y lo más detallada posible. Se pone atención a la segmentación como paso fundamental y de apoyo a otras tareas de limpieza de datos y, específicamente, en la segmentación de direcciones postales. Se explican de manera general técnicas y herramientas para llevar a cabo las tareas de limpieza de datos, especialmente de direcciones postales. Finalmente, se describen técnicas novedosas utilizadas para realizar de forma bastante satisfactoria la segmentación y normalización de direcciones postales.
Palabras clave: Limpieza de datos, Modelos Ocultos de Markov, HMM.
"Una organización puede ser rica en datos y pobre en información, si no sabe cómo identificar, resumir y categorizar los datos" (Madnick, 1993)
La tecnología de los almacenes de datos o datawarehouses (DW), se encuadra dentro de la línea de evolución de las bases de datos hacia una mayor funcionalidad e inteligencia.
Algunos los relacionan estrechamente con los sistemas de Inteligencia en el Negocio (Business Intelligence (BI)) y otros con los Sistemas para el Soporte a la Toma de Decisiones (Decision Support Systems (DSS)), pero en cualquier caso son considerados una solución integral y oportuna para apoyar la toma de decisiones y desarrollar exitosamente el negocio.
Existen muchas definiciones para el DW. Quizá la más conocida fue propuesta por Inmon, considerado el padre de los Almacenes de Datos, en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales".
En esta definición se plantea que deben conformarse orientados hacia materias o temas (por ejemplo, clientes o productos), con datos y metadatos perfectamente integrados y coherentes con respecto al nombre de las variables, los formatos de los campos, la medida de los atributos y la codificación de estructuras, con información histórica para comparar datos en distintos períodos de tiempo e identificar tendencias. Toda esta información, una vez incorporada al DW debe mantenerse, en general, invariable, cargándose pocas veces en el tiempo y no permitiendo actualizaciones frecuentes.
Detrás de la arquitectura de un DW existe un conjunto básico de procesos de suma importancia para el mismo, entre los cuales se pueden mencionar algunos elementales como:
De estos procesos, es importante para las empresas ponerle atención a la transformación de datos, donde se incluyen operaciones de corrección de errores, resolución de problemas de dominio, borrado de campos que no son de interés, generación de claves, agregación de información, etc.
La transformación de datos es necesaria porque no siempre los datos están en la forma más adecuada para poder aplicar los métodos que hacen falta para la tarea que se ha de llevar a cabo y el modelo que se quiere obtener.
Esta fase, aunque parezca sencilla, conlleva aproximadamente el 70% del esfuerzo en los proyectos de DW.
"Every meaningful data warehouse application needs good data"
Un asunto en DW que es universalmente reconocido, pero la mayoría de las veces ignorado, es la limpieza de datos de un almacén. Se han identificado tres temas fundamentales como los mayores problemas en el manejo de datos corporativos, que se personifican con frases muy comunes y de los cuales solo se atacan con fuerza los dos primeros aquí mencionados.
El problema de la limpieza de datos es poco tratado o evadido por muchas empresas, lo que conlleva no considerar adecuadamente el impacto negativo para el negocio de tener almacenada información deficiente.
Un estudio realizado en el año 2005 plantea que :
Y prosigue la misma referencia : "Así, surge la pregunta: Si tan solicitadas son las bases de datos, si todos estamos de acuerdo en que la información de nuestros clientes y nuestros mercados es nuestro activo más importante, si la calidad de la información es el primer paso en cualquier proyecto de implantación de tecnología de información, entonces, ¿cómo puede convertirse en un problema?"
Según la experiencia de ese autor, esta situación es básicamente debida a lo siguiente:
Página siguiente ![]() |
Trabajos relacionados
Ver mas trabajos de Otros |
|
Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.