- Resumen
- Procedimiento basado en
HMM - Definir
sustituciones - Seleccionar
un conjunto de entrenamiento y de de prueba . Hacer
sustituciones en el conjunto de
entrenamiento - Formar
diccionarios para cada nodo del modelo - Calcular
las matrices A y B del HMM externo y de los internos, a partir
del conjunto de entrenamiento - Obtener
campos llaves del fichero y campos de direcciones postales del
conjunto de prueba. Hacer sustituciones en el conjunto de
prueba. Probar el modelo entrenado con el conjunto de
prueba - Generar
ficheros - Revisar
por ciento de efectividad de los resultados obtenidos de la
prueba. Mejorar el modelo - Preprocesar
direcciones. Obtener campos llaves y campo de dirección
postal
Hacer sustituciones en el conjunto de direcciones a segmentar.
Generar fichero con conjunto de direcciones segmentadas
asociadas a su llave o clave de registro- Funcionamiento
general del modelo - Conclusiones
- Bibliografía
- Anexos
RESUMEN
En este trabajo se
propone un procedimiento
basado en HMM (Hidden Markov Models) en unión de otras
técnicas y del conocimiento
adquirido en el estudio de un conjunto de direcciones postales de la
base de datos
de una organización empresarial, para segmentarlas
automáticamente, dando un paso importante para su
estandarización y mejor utilización de la información que llevan en ellas. De la
misma manera se propone un Modelo general
con el mismo fin.
Palabras clave: Limpieza de datos, Modelos
Ocultos de Markov, HMM.
Una caracterización previa de las direcciones
postales de la base de datos de los clientes
de una organización empresarial, permitió
conocer una gran parte de los problemas
existentes en dichas direcciones. De ese estudio se
derivó una estructura
para las direcciones postales que contiene los elementos
necesarios para posibilitar una segmentación más ajustada a los
intereses de la
organización estudiada.También se construyó un Modelo Oculto
de Markov externo para las direcciones postales de esa
organización, así como los Modelos Ocultos de
Markov internos para cada uno de los elementos que componen
la estructura de una dirección postal. La totalidad del
estudio realizado previo al trabajo que aquí se
presenta, es un avance en la configuración de un
procedimiento para segmentar correctamente las direcciones,
como paso previo para conformar con estas un Almacén de Datos eficiente y
eficaz.- Introducción.
- Procedimiento
basado en HMM
El procedimiento que se propone en este trabajo para
segmentar y normalizar las direcciones en la organización
empresarial que es motivo de estudio, es el siguiente:
- Analizar direcciones.
- Proponer estructura de las direcciones.
- Definir modelo general basado en HMM.
- Definir sustituciones.
- Seleccionar un conjunto de entrenamiento y
de prueba. - Hacer sustituciones en el conjunto de
entrenamiento. - Formar diccionarios
para cada nodo del modelo. - Calcular las matrices A y
B del HMM externo y de los internos a partir del conjunto de
entrenamiento. - Obtener campo(s) llave(s) y campo(s) de direcciones
postales del conjunto de prueba. - Hacer sustituciones en el conjunto de
prueba. - Probar el modelo entrenado con el conjunto de
prueba. - Generar fichero con conjunto de direcciones
segmentadas asociadas a su llave o clave de registro. - Generar fichero con partes de direcciones que no
pudieron ser procesadas automáticamente asociadas a su
llave o clave de registro. - Revisar por ciento de efectividad de los resultados
obtenidos de la prueba. - Mejorar el modelo.
- Preprocesar direcciones.
- Obtener campo(s) llave(s) y campo de dirección
postal. - Hacer sustituciones en el conjunto de direcciones a
segmentar. - Utilizar modelo probado para segmentar
direcciones. - Generar fichero con conjunto de direcciones
segmentadas asociadas a su llave o clave de
registro. - Generar fichero con partes de direcciones que no
pudieron ser procesadas automáticamente asociadas a su
llave o clave de registro.
El primer paso que se propone en este procedimiento es
hacer un estudio de un conjunto de direcciones
características, que van aportando poco a poco a la
estructura que forma las direcciones de determinada localidad,
municipio o región que se esté analizando. Este
paso es fundamental pues de aquí surge la estructura
implícita que contienen las direcciones y algunas
restricciones y detalles que deben ser tomados en cuenta para su
posterior procesamiento automatizado.
La estructura que llevan implícitas las
direcciones de determinado lugar puede ser propuesta a partir del
análisis de estas. En este trabajo se
estudiaron las características de las direcciones postales
de la ciudad de Santa Clara, municipio cabecera de la provincia
de Villa Clara, Cuba, y luego
de este estudio se propuso una estructura. En el Anexo III se
puede ver la estructura a la que se arribó con este
trabajo.
El modelo basado en HMM que se propone utilizar consta
de un HMM externo y un HMM interno por cada nodo que forma el HMM
externo. El HMM externo propuesto, en una versión
simplificada, puede verse en el Anexo I de este trabajo. Un
ejemplo de HMM interno, de un total de 17, puede verse en el
Anexo II.
Estos tres pasos iniciales ya habían sido
llevados a cabo al elaborar este trabajo, por lo que no se
detallan aquí, y solo se explican a continuación
los demás pasos.
Página siguiente |