- Resumen
- Almacenes de
Datos - Limpieza y calidad de
datos - Segmentación
y estandarización de direcciones
postales - Hidden
Markov Models (HMM) - Suavizamiento
(Smoothing) - Algoritmo de
Viterbi - Mejoras
al HMM para la segmentación de
direcciones - Taxonomía de
símbolos - Distancia de
Levenshtein - Conclusiones
- Bibliografía
RESUMEN
En este trabajo se
trata sobre la importancia de que los Almacenes de
Datos contengan información con calidad, libre de
suciedades y lo más detallada posible. Se pone atención a la segmentación como paso fundamental y de
apoyo a otras tareas de limpieza de datos y,
específicamente, en la segmentación de direcciones
postales. Se
explican de manera general técnicas y
herramientas
para llevar a cabo las tareas de limpieza de datos, especialmente
de direcciones postales. Finalmente, se describen técnicas
novedosas utilizadas para realizar de forma bastante
satisfactoria la segmentación y normalización de direcciones
postales.
Palabras clave: Limpieza de datos, Modelos
Ocultos de Markov, HMM.
"Una organización puede ser rica en datos y
pobre en información, si no sabe cómo identificar,
resumir y categorizar los datos" (Madnick, 1993)
La tecnología de los
almacenes de
datos o datawarehouses (DW), se encuadra dentro de la
línea de evolución de las bases de datos
hacia una mayor funcionalidad e inteligencia.
Algunos los relacionan estrechamente con los sistemas de
Inteligencia en el Negocio (Business Intelligence (BI)) y
otros con los Sistemas para el Soporte a la Toma de
Decisiones (Decision Support Systems (DSS)), pero en
cualquier caso son considerados una solución integral y
oportuna para apoyar la toma de decisiones y desarrollar
exitosamente el negocio.
Existen muchas definiciones para el DW. Quizá la
más conocida fue propuesta por Inmon, considerado el padre
de los Almacenes de Datos, en 1992: "Un DW es una
colección de datos orientados a temas, integrados,
no-volátiles y variante en el tiempo,
organizados para soportar necesidades
empresariales".
En esta definición se plantea que deben
conformarse orientados hacia materias o temas (por ejemplo,
clientes o
productos),
con datos y metadatos perfectamente integrados y coherentes con
respecto al nombre de las variables, los
formatos de los campos, la medida de los atributos y la codificación de estructuras,
con información histórica para comparar datos en
distintos períodos de tiempo e identificar tendencias.
Toda esta información, una vez incorporada al DW debe
mantenerse, en general, invariable, cargándose pocas veces
en el tiempo y no permitiendo actualizaciones
frecuentes.
Detrás de la arquitectura de
un DW existe un conjunto básico de procesos de
suma importancia para el mismo, entre los cuales se pueden
mencionar algunos elementales como:
- El proceso de
extracción, que consiste en estudiar y entender
los datos fuente, tomando aquellos que son de utilidad para
el almacén. - El proceso de transformar a una forma
presentable y de valor para
los usuarios - La carga de los datos en el
DW - Controles de calidad para asegurar que la
misma sea correcta.
De estos procesos, es importante para las empresas ponerle
atención a la transformación de datos, donde
se incluyen operaciones de
corrección de errores, resolución de problemas de
dominio,
borrado de campos que no son de interés,
generación de claves, agregación de
información, etc.
La transformación de datos es necesaria
porque no siempre los datos están en la forma más
adecuada para poder aplicar
los métodos
que hacen falta para la tarea que se ha de llevar a cabo y el
modelo que se
quiere obtener.
Esta fase, aunque parezca sencilla, conlleva
aproximadamente el 70% del esfuerzo en los proyectos de
DW.
"Every meaningful data warehouse
application needs good data"
Un asunto en DW que es universalmente reconocido, pero
la mayoría de las veces ignorado, es la limpieza de datos
de un almacén.
Se han identificado tres temas fundamentales como los mayores
problemas en el manejo de datos corporativos, que se personifican
con frases muy comunes y de los cuales solo se atacan con
fuerza los dos
primeros aquí mencionados.
- El acceso a datos: "Tenemos uno de los
más grandes volúmenes de datos pero no podemos
acceder a ellos". - Las herramientas de consulta: "Yo quiero un
sistema que me
muestre qué es importante y entonces preguntar por
qué". - La integridad de los datos: "Nosotros sabemos
que algunos de nuestros datos no son muy buenos. Por ejemplo,
no tenemos una única lista mantenida de
clientes"
El problema de la limpieza de datos es poco tratado o
evadido por muchas empresas, lo que conlleva no considerar
adecuadamente el impacto negativo para el negocio de tener
almacenada información deficiente.
Un estudio realizado en el año 2005 plantea que
:
- "El 25% de nuestros datos son defectuosos, y un 48%
de las empresas no invierten esfuerzos y dinero
suficiente en la depuración y el mantenimiento de sus bases de
datos." - "El éxito
o fracaso en un proyecto
Costumers Relations Management (CRM), DW,
e-Business o
Enterprise Resource Planning (ERP),
depende en gran parte de la calidad de datos e
información interna". - "El 75% de 600 empresas confesaron tener problemas
internos serios por problemas de calidad de datos".
Y prosigue la misma referencia : "Así, surge la
pregunta: Si tan solicitadas son las bases de datos, si todos
estamos de acuerdo en que la información de nuestros
clientes y nuestros mercados es
nuestro activo más importante, si la calidad de la
información es el primer paso en cualquier proyecto de
implantación de tecnología
de información, entonces, ¿cómo puede
convertirse en un problema?"
Según la experiencia de ese autor, esta
situación es básicamente debida a lo
siguiente:
- Hay mucha información con distintos
orígenes. - La información es dinámica y sometida a constantes
cambios. - Se tiende a infravalorar las carencias y sus
consecuencias. - El no-reconocimiento de la importancia de la
información y los datos. - Es un tema político: información es
poder. Abordar un proyecto de calidad de datos, muchas veces
implica cambios en la
organización de la
empresa.
Página siguiente |