Monografias.com > Otros
Descargar Imprimir Comentar Ver trabajos relacionados

Modelo y Procedimiento para Segmentar Direcciones Postales



Partes: 1, 2

    1. Resumen
    2. Procedimiento basado en
      HMM
    3. Definir
      sustituciones
    4. Seleccionar
      un conjunto de entrenamiento y de de prueba . Hacer
      sustituciones en el conjunto de
      entrenamiento
    5. Formar
      diccionarios para cada nodo del modelo
    6. Calcular
      las matrices A y B del HMM externo y de los internos, a partir
      del conjunto de entrenamiento
    7. Obtener
      campos llaves del fichero y campos de direcciones postales del
      conjunto de prueba. Hacer sustituciones en el conjunto de
      prueba. Probar el modelo entrenado con el conjunto de
      prueba
    8. Generar
      ficheros
    9. Revisar
      por ciento de efectividad de los resultados obtenidos de la
      prueba. Mejorar el modelo
    10. Preprocesar
      direcciones. Obtener campos llaves y campo de dirección
      postal

    11. Hacer sustituciones en el conjunto de direcciones a segmentar.
      Generar fichero con conjunto de direcciones segmentadas
      asociadas a su llave o clave de registro
    12. Funcionamiento
      general del modelo
    13. Conclusiones
    14. Bibliografía
    15. Anexos

    RESUMEN

    En este trabajo se
    propone un procedimiento
    basado en HMM (Hidden Markov Models) en unión de otras
    técnicas y del conocimiento
    adquirido en el estudio de un conjunto de direcciones postales de la
    base de datos
    de una organización empresarial, para segmentarlas
    automáticamente, dando un paso importante para su
    estandarización y mejor utilización de la información que llevan en ellas. De la
    misma manera se propone un Modelo general
    con el mismo fin.

    Palabras clave: Limpieza de datos, Modelos
    Ocultos de Markov, HMM.

    1. Una caracterización previa de las direcciones
      postales de la base de datos de los clientes
      de una organización empresarial, permitió
      conocer una gran parte de los problemas
      existentes en dichas direcciones. De ese estudio se
      derivó una estructura
      para las direcciones postales que contiene los elementos
      necesarios para posibilitar una segmentación más ajustada a los
      intereses de la
      organización estudiada.

      También se construyó un Modelo Oculto
      de Markov externo para las direcciones postales de esa
      organización, así como los Modelos Ocultos de
      Markov internos para cada uno de los elementos que componen
      la estructura de una dirección postal. La totalidad del
      estudio realizado previo al trabajo que aquí se
      presenta, es un avance en la configuración de un
      procedimiento para segmentar correctamente las direcciones,
      como paso previo para conformar con estas un Almacén de Datos eficiente y
      eficaz.

    2. Introducción.
    3. Procedimiento
      basado en HMM

    El procedimiento que se propone en este trabajo para
    segmentar y normalizar las direcciones en la organización
    empresarial que es motivo de estudio, es el siguiente:

    1. Analizar direcciones.
    2. Proponer estructura de las direcciones.
    3. Definir modelo general basado en HMM.
    4. Definir sustituciones.
    5. Seleccionar un conjunto de entrenamiento y
      de prueba.
    6. Hacer sustituciones en el conjunto de
      entrenamiento.
    7. Formar diccionarios
      para cada nodo del modelo.
    8. Calcular las matrices A y
      B del HMM externo y de los internos a partir del conjunto de
      entrenamiento.
    9. Obtener campo(s) llave(s) y campo(s) de direcciones
      postales del conjunto de prueba.
    10. Hacer sustituciones en el conjunto de
      prueba.
    11. Probar el modelo entrenado con el conjunto de
      prueba.
    12. Generar fichero con conjunto de direcciones
      segmentadas asociadas a su llave o clave de registro.
    13. Generar fichero con partes de direcciones que no
      pudieron ser procesadas automáticamente asociadas a su
      llave o clave de registro.
    14. Revisar por ciento de efectividad de los resultados
      obtenidos de la prueba.
    15. Mejorar el modelo.
    16. Preprocesar direcciones.
    17. Obtener campo(s) llave(s) y campo de dirección
      postal.
    18. Hacer sustituciones en el conjunto de direcciones a
      segmentar.
    19. Utilizar modelo probado para segmentar
      direcciones.
    20. Generar fichero con conjunto de direcciones
      segmentadas asociadas a su llave o clave de
      registro.
    21. Generar fichero con partes de direcciones que no
      pudieron ser procesadas automáticamente asociadas a su
      llave o clave de registro.

    El primer paso que se propone en este procedimiento es
    hacer un estudio de un conjunto de direcciones
    características, que van aportando poco a poco a la
    estructura que forma las direcciones de determinada localidad,
    municipio o región que se esté analizando. Este
    paso es fundamental pues de aquí surge la estructura
    implícita que contienen las direcciones y algunas
    restricciones y detalles que deben ser tomados en cuenta para su
    posterior procesamiento automatizado.

    La estructura que llevan implícitas las
    direcciones de determinado lugar puede ser propuesta a partir del
    análisis de estas. En este trabajo se
    estudiaron las características de las direcciones postales
    de la ciudad de Santa Clara, municipio cabecera de la provincia
    de Villa Clara, Cuba, y luego
    de este estudio se propuso una estructura. En el Anexo III se
    puede ver la estructura a la que se arribó con este
    trabajo.

    El modelo basado en HMM que se propone utilizar consta
    de un HMM externo y un HMM interno por cada nodo que forma el HMM
    externo. El HMM externo propuesto, en una versión
    simplificada, puede verse en el Anexo I de este trabajo. Un
    ejemplo de HMM interno, de un total de 17, puede verse en el
    Anexo II.

    Estos tres pasos iniciales ya habían sido
    llevados a cabo al elaborar este trabajo, por lo que no se
    detallan aquí, y solo se explican a continuación
    los demás pasos.

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter