Página anterior | ![]() Volver al principio del trabajo | Página siguiente ![]() |
<Punto Cardinal>::= Este | Oeste | Sur | Norte
<Km>::= <Prefijo de Km> <Número>
<Prefijo de Km>::= Km
<Casa>::= [<Prefijo de Casa>] <Nombre de Número> [<Ubicación de Casa>]
<Prefijo de Casa>::= # | Número
< Nombre de Número >::=<Número> | <Letras> | <Número><Letras> | <Número> - <Letras> | <Número> - <Número> | SN | S/N
<Ubicación de Casa>::= Altos | Bajos | Interior
<Entre Calle1>::= [<Prefijo de entre calles>] <Calle>
<Prefijo de entre calles>::= entre
<Entre Calle2>::= <Calle>
<Esquina>::= <Prefijo de Esquina> <Calle>
<Prefijo de Esquina>::= Esquina
<Edificio>::= <Prefijo de Edificio> <Secuencia de identificadores>
<Prefijo de Edificio>::= Edificio | Bloque | CMF
<Piso>::= <Prefijo de Piso><Número> | <Número ordinal> <Prefijo de Piso>
<Prefijo de Piso>::= Piso | Nivel
<Escalera>::= <Prefijo de Escalera> <Nombre de Número>
<Prefijo de Escalera>::= Escalera
<Apartamento>::= [<Prefijo de Apartamento>] <Nombre de Número>
<Prefijo de Apartamento>::= Apartamento
<Reparto>::= [<Prefijo de Reparto>] <Secuencia de identificadores>
<Prefijo de Reparto>::= Reparto | Barrio | Batey | Finca
<Municipio>::= <Secuencia de identificadores>
<Zona Postal>::= [<Prefijo de Zona Postal>] <1 dígito>
<Prefijo de Zona Postal>::= Z
<Código Postal>::= [<Prefijo de Código Postal>] <5 dígitos>
<Prefijo de Código Postal>::= CP | CPOS | CPostal
<Provincia>::= [<Prefijo de Provincia>] <Secuencia de identificadores>
<Prefijo de Provincia>::= Provincia
En la descripción anterior hay que aclarar que:
El problema de extraer la estructura de textos estructurados o semiestructurados puede ser dirigido a varios niveles de complejidad, entre los cuales se encuentra el problema de extracción semántica desde documentos usando técnicas para el procesamiento del lenguaje natural, la extracción basada en patrones sintácticos y la utilización de sistemas basados en reglas para la extracción de estructuras.
Para el problema de la segmentación de direcciones postales se requiere algo más que lo que proponen las técnicas antes mencionadas. Esto es así debido a que las instancias de este problema son muy irregulares, el orden de los campos no es fijo, no todos los campos están presentes en todos los ejemplos y no siempre existen elementos separadores entre los campos.
Por otro lado, las herramientas profesionales que hay en el mercado para limpiar direcciones son sumamente costosas.
Teniendo en cuenta todos estos elementos, se llega a la conclusión de que se pudiera desarrollar una herramienta que ayude a la segmentación de direcciones postales, se ajuste a las características actuales de las direcciones de la organización estudiada, y que resuelva, si no todos, la mayoría de los problemas de normalización detectados.
Ante esta conclusión se pone especial atención en los Modelos Ocultos de Markov (HMM), poderosa técnica de máquina de aprendizaje estadística que maneja datos nuevos de forma robusta, computacionalmente eficiente y fácil de aprender e interpretar para los humanos.
Este método ha sido utilizado recientemente para la segmentación de textos libres, arrojando resultados excelentes en el procesamiento de direcciones postales. Ha sido probado para dividir un conjunto de direcciones heterogéneas de escala nacional de la India (cuyas características son similares a las aquí tratadas) con una precisión del 89%, y un 99,6% en direcciones de EE. UU., que tienden a ser más estándares.
Después de estudiar las direcciones postales y proponer la estructura que estas deben tener, se pueden utilizar los HMM para segmentar esas direcciones.
El modelo basado en HMM que se propone utilizar consta de un HMM externo y un HMM interno por cada nodo que forma el HMM externo.
La estructura del HMM externo se basa en los elementos en los que se propone sea dividida la dirección. Apoyándose en la estructura descrita anteriormente se pueden definir los nodos siguientes:
A partir de estos quince nodos y de las restricciones y relaciones posibles que hay entre ellos se puede construir una primera versión del HMM externo a utilizar. En la figura 1 aparece una versión simplificada del HMM con sus probabilidades de transición. Vale aclarar que en esa versión no aparecen todas las relaciones entre nodos ya que sería muy difícil de representar e interpretar.
Este modelo devolvería como no válidas determinadas direcciones incompletas. Si se quisiera que se aceptaran todas las direcciones, aún teniendo un único elemento, todos los nodos tendrían que tener un arco de transición al nodo Final (F).
En la figura 2 se describe más detalladamente uno de los elementos en sus relaciones con los demás. Para no extender demasiado este trabajo no se adjuntan los 17 esquemas que contempla todo el estudio realizado.
Los HMM internos se implementan para el reconocimiento de la estructura interna de cada elemento de la dirección. Por tanto, por cada nodo del HMM externo descrito en la sección anterior, hay un HMM interno, el cual está compuesto, igualmente al externo, por un nodo Inicial y Final, además de los nodos que representan la secuencia de componentes distintos que forman el elemento al que está asociado.
Algo a tener en cuenta es seleccionar una buena estructura para el HMM interno. Un buen HMM de este tipo sería aquel que aceptara solo los símbolos que pertenecen a él; para lograrlo, el HMM interno no necesariamente tiene que aprender a rechazar todos los componentes que no pertenecen a él, sino solo aquellos que pertenecen a un elemento adyacente.


Fig. 1 Propuesta de HMM externo.

Fig. 2 Relaciones del elemento "calle" con los demás de la
estructura de una dirección postal
Por tanto un HMM interno puede entrenarse en conjunto con otros que son adyacentes a él y de esta forma lograr una buena estructura.
Como conjunto de entrenamiento para cada HMM interno se utilizan los símbolos que pertenecen al elemento en cuestión. En la fase de entrenamiento se construyen las matrices A y B para cada HMM interno.
Se puede utilizar, en lugar de un diccionario para cada nodo, un único diccionario que sería el asociado al elemento.
En la figura 3 se puede ver, a modo de ejemplo, una de las estructuras de los HMM internos de los elementos de una dirección postal. Los nodos "I" representan al nodo inicial. Los nodos "F" representan el nodo final. Los nodos "T" tienen asociados un lazo cada uno, que indica que pueden ser una o más palabras. Estos nodos tienen que verificar en los diccionarios de los elementos adyacentes para salir del lazo. También pudiera existir una condición de parada que fuera la cantidad de componentes que puede tener un elemento de dirección. Por ejemplo, calle no tiene más de 5 componentes, incluyendo al prefijo.
|
# |
Número |
|
Pcas |
Prefijo de casa |
|
L |
Letra |
|
§ |
Número, número más letra, número más guión más letra, SN, número entero más número fraccionario. |
|
- |
Carácter Guión |

Fig. 3. HMM interno del elemento casa.
[1] F. S. Almonacid, "Data Warehouse," vol. 2006. [http://www.monografias.com/trabajos6/dawa/dawa.shtml#impa]
[2] R. Kimball, "Dealing with Dirty Data," vol. 2005, 1996. [http://www.dbmsmag.com/9609d14.html]
[3] RealITech, "Data Warehousing (Data Warehousing, SQL Server.htm)," vol. 2006, 2001. [http://www.sqlmax.com/dataw1.asp]
[4] K. D. Vinayak Borkar, Sunita Sarawagiz, "Automatic segmentation of text into structured," vol. 2006, 2001. [http://www.it.iitb.ac.in/~creena/seminar/sigmod01.pdf]
[5] W. Publications, "Prism Warehouse Manager 2.0 builds, manages data warehouse," vol. 2006, 1993. [http://www.findarticles.com/p/articles/mi_m0SMG/is_n14_v13/ai_14425978]
[6] r. j. orli, "Data Extraction, Transformation, and Migration Tools," vol. 2006, 1996. [http://www.kismeta.com/ex2.html]
[7] H. Galhardas, "Data Cleaning and Integration," vol. 2006, 2000. [http://web.tagus.ist.utl.pt/~helena.galhardas/cleaning.html]
[8] UNISERV, "SOLUCIONES DE SW AL SERVICIO DE LA CALIDAD DE LOS DATOS," vol. 2005. [http://www.uniserv.de/en/download/pdf-download/Generelle-Fact-Sheets/calidad_de_los_datos.pdf]
[9] Acxiom, "Tratamiento de nombres y direcciones.
¿Porqué normalizar sus datos?," vol. 2006. [http://www.acxiom.es/Gestion_de_la_Informacion/Normalizacion_y_agrupacion/Normalizacion/index.html]
[10] E. Corporation, "Calidad de Datos: Fundamento de la Empresa Exitosa," vol. 2006, 2006. [http://www.eniac-corp.com/noticias2.htm]
[11] S. Allen, "Name and Address Data Quality," vol. 2006. [http://www.iqconference.org/Documents/IQ%20Conference%201996/Keynote%20and%20Lunch%20Speeches/Name%20and%20Address%20Data%20Quality.pdf#search=%22%22MasterSoft%20International%20%22%20%2B%20%22NADIS%22%22]
[12] J. C. Kazem Taghva, Ray Pereda, Thomas Nartker, "Address Extraction Using Hidden Markov Models," vol. 2006. [http://www.isri.unlv.edu/publications/isripub/Taghva2005a.pdf]
[13] U. N. d. Colombia, "DEFINICION DE LOS ELEMENTOS DE UN HMM," vol. 2006, 2005. [http://www.virtual.unal.edu.co/cursos/ingenieria/2001832/lecciones/hmm4.html]
[14] T. Kanungo, "Hidden Markov Models." [http://www.cfar.umd.edu/~kanungo/software/hmmtut.pdf]
[15] P. Wiggers, "HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION AND THEIR MULTIMODAL APPLICATIONS," vol. 2066, 2001. [http://www.kbs.twi.tudelft.nl/docs/MSc/2001/Wiggers_Pascal/thesis.pdf]
[16] L. M. B. Pascual, "Introducción a los Modelos Ocultos de Markov," vol. 2005. [http://www.depeca.uah.es/docencia/doctorado/cursos04_05/82854/docus/HMM.pdf]
[17] J. C. Kazem Taghva, Ray Pereda, Thomas Nartker, "Address Extraction Using Hidden Markov Models," vol. 2006. [http://www.isri.unlv.edu/publications/isripub/Taghva2005a.pdf]
[18] B. Resch, "Hidden Markov Models," vol. 2006. [http://www.igi.tugraz.at/lehre/CI/tutorials/HMM/HMM.pdf]
DATOS DE LA AUTORA
Liudmila Padrón Torres
Profesión: Especialista Informática. Graduada en Lic. en Ciencias de la Computación.
Entidad donde trabaja: Empresa de Telecomunicaciones de Cuba S.A (ETECSA V.C.)
Fecha de realización del trabajo: 29/09/2006
Categorías del Trabajo: Computación\General, Empresa

Página anterior | ![]() Volver al principio del trabajo | Página siguiente ![]() |
Trabajos relacionados
Ver mas trabajos de Otros |
|
Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.
Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.
Ingrese el e-mail y contraseña con el que está registrado en Monografias.com
|
|