Monografias.com > Otros
Descargar Imprimir Comentar Ver trabajos relacionados

Revisión de técnicas de agrupamiento de minería de datos espaciales en un SIG




Enviado por gigarcia



    1. Abstract
    2. Tipos de conocimiento en bases de
      datos
    3. Minería de datos
      espaciales MDE
    4. Arquitectura de un sistema
      MDE
    5. Métodos de un
      MDE
    6. Algoritmos de
      agrupamiento
    7. Técnicas de MDE basadas
      en agrupamientos
    8. Conclusiones
    9. Bibliografía

    ABSTRACT

    Spatial data mining is the discovery of interesting
    relationships and characteristics that may exist implicitly in
    spatial databases. Knowledge discovery in databases (KDD) is also
    an important task in spatial databases since both, the number and
    the size of such databases are rapidly growing.The goal of this
    survey is to provide a comprehensive review of different
    clustering techniques in data mining. Clustering is a division of
    data into groups of similar objects. Each group, called cluster,
    consists of objects that are similar between themselves and
    dissimilar to objects of other groups. Data modeling puts
    clustering in a historical perspective rooted in mathematics,
    statistics, and numerical analysis. To this end, this paper has
    also an aditional contribution. We propose a new clustering
    method called CLARQ, whose aim is to identify spatial structures
    that may be present in the data. Experimental results shown that,
    when compared with existing clustering methods, CLARQ is very
    efficient and effective.

    Keywords: Spatial Data Mining, clustering,
    cluster, partitioning, data mining, unsupervised learning,
    descriptive learning, exploratory data analysis, hierarchical
    clustering, probabilistic clustering, k-means, mineria de datos
    espaciales, bases de datos
    espaciales

    1.
    INTRODUCCIÓN

    La identificación de patrones comunes,
    asociaciones, reglas generales y nuevo conocimiento
    es hoy en día una actividad investigativa de gran interés
    (Fayyad et al, 1996). Utilizando algoritmos de
    minería de
    datos en una base de datos
    de un conocido supermercado, se encontró que el 80% de los
    médicos varones que con tarjeta compran artículos
    para dama en la ultima semana de abril o la primera de mayo
    (Kennedy et al., 1998).

    Esta información será muy útil
    para orientar y dirigir la publicidad que se
    incorporará en su estado de
    cuenta, sin tener que imprimir publicidad sobrante o enviarla a
    otros que no exhiben ese comportamiento. De esta forma la minería de
    datos y la minería de datos espaciales revelan patrones o
    asociaciones que usualmente eran desconocidas (Holsheimer y
    Siebes, 1994). A estas técnicas se le han denominado
    también Descubrimiento de Conocimiento en Bases de Datos
    (Knowledge Discovery in Databases, KDD).

    Investigadores y grandes compañías, en
    muchos campos han mostrado gran interés en la
    Minería de Datos y además han desarrollado diversos
    paquetes de software para llevar a cabo
    esta tarea (Piatetsky-Shapiro y Frawley, 1991). Hasta el momento
    la minería de datos y los SIG han existido como dos
    tecnologías separadas, cada una con sus propios métodos y
    enfoques para la visualización y análisis de datos. Particularmente, la
    mayoría del software SIG comercial tiene sólo una
    funcionalidad de análisis espacial muy básica
    (Bosque et al., 1994). Muchos son confinados al análisis
    de despliegues estadístico, como histogramas o diagramas de
    pie.

    Actualmente, el proceso de
    integración de estas dos tecnologías
    ha sido crítico, ya que varias entidades privadas y
    gubernamentales con grandes bases de datos espaciales empiezan a
    descubrir el enorme potencial de la información encubierta
    en esas bases de datos geográficas.

    2. TIPOS DE
    CONOCIMIENTO EN BASES DE DATOS

    Las bases de datos espaciales se utilizan normalmente
    para guardar una variedad de información dependiendo del
    dominio de la
    aplicación elegida (Holsheimer y Siebes, 1994). Una base
    de datos espacial o geográfica constituye un continuo
    espacio-temporal en el cual las propiedades de un lugar
    particular se explican en términos de las propiedades de
    sus vecinos (Silberchatz, et al., 2001). De allí la gran
    importancia de las relaciones espaciales en el proceso de
    análisis. Los aspectos temporales para los datos
    espaciales son también un punto central pero muy raramente
    se toman en cuenta. En las bases de datos espaciales existen
    diferentes tipos de conocimiento (ver figura 1):

    • Conocimiento evidente SQL
      (Structured Query Language)
      : La consulta enunciada con SQL
      es motivada por una hipótesis muy concreta. Las aplicaciones
      y los reportes generados de una base de datos en línea,
      asumen que es la información necesaria para la
      administración cotidiana de la actividad de negocio
      y que sólo de manera esporádica se
      requerirá de otra información.
    • Conocimiento multidimensional OLAP (On-Line
      Analytical Processing):
      El procesamiento analítico
      en línea OLAP es una forma de organizar datos para que
      se ajusten al modo que tienen los usuarios de analizarlos y
      administrarlos, de modo que la creación de los informes
      necesarios sea un proceso más fácil y más
      rápido. Cuando se crea un cubo OLAP a partir de una
      consulta, el conjunto de registros
      planos se convierte en una jerarquía estructurada, o
      cubo, que permite que los informes traten el nivel de detalle
      deseado. También se predefinen los valores
      de resumen de los informes que aceleran el proceso de cálculo
      de los mismos.
    • Conocimiento oculto (Knowledge Discovery on
      Databases, KDD):
      KDD es el nombre con que se conoce de
      forma global al proceso de extracción de conocimiento de
      bases de datos y como parte del proceso se encuentra el data
      mining. El Descubrimiento de Conocimiento en Bases de Datos es
      el proceso de identificación de patrones válidos,
      potencialmente útiles y comprensibles en los datos
      (Fayyad et al. 1996). El objetivo es
      la extracción de conocimiento de los datos, en el
      contexto de las bases de datos de gran tamaño. KDD es un
      proceso multidisciplinario que encierra: conocimiento, aprendizaje,
      bases de datos, estadística, sistemas
      expertos y representación gráfica, entre
      otros.

    Figura 1. Tipos de conocimiento en bases
    de datos espaciales

    3. MINERÍA
    DE DATOS ESPACIALES, MDE

    La minería de datos espaciales (MDE) es el
    descubrimiento de conocimiento implícito y previamente
    desconocido en base de datos espaciales. La MDE se refiere a la
    extracción del conocimiento, de las relaciones espaciales,
    o de otros patrones interesantes almacenados no
    explícitamente en bases de datos espaciales. La MDE exige
    una integración de los datos que minan con
    tecnologías espaciales (Cabena et al. 1998). Puede ser
    utilizada para entender datos espaciales, descubriendo relaciones
    espaciales y relaciones entre los datos espaciales y no
    espaciales, construyendo bases de conocimiento espaciales,
    reorganizando preguntas y optimizando las bases de datas
    espaciales (Pineda et al. 1998).

    Se espera que tenga usos amplios en sistemas de
    información geográfica, geo-marketing,
    detección remota, exploración de imágenes
    en bases de datos, proyección de imágenes
    médicas, navegación, control de
    tráfico, estudios ambientales, y muchas otras áreas
    donde se utilizan los datos espaciales.

    El conocimiento a ser descubierto en los datos
    espaciales puede ser de varios tipos, como características
    representativas, estructuras o
    agrupamientos, asociaciones espaciales, solamente por mencionar
    algunos.

    4. ARQUITECTURA DE
    UN SISTEMA DE
    MDE

    Un sistema de MDE está configurado por la
    siguiente arquitectura (ver figura 2):

    • Base de datos: Puede ser de tipo base de datos
      normal, data warehouse,
      hoja de
      cálculo u otra clase de
      repositorio. A estos datos se le aplican técnicas de
      limpieza e integración.
    • Servidor de bases de datos: Utilizado para
      obtener la información relevante según el proceso
      de minería de datos.

    Figura 2. Arquitectura de un Sistema
    Típico de Minería de Datos. (Tomada de Han and
    Kamber, 2001)

    • Base de conocimiento: Conocimiento del dominio
      para guiar la búsqueda y evaluar los patrones. Se tienen
      en cuenta las creencias de los datos. Los umbrales de evaluación y el
      conocimiento previo.
    • Algoritmo de minería de datos: Modular
      para realizar distintos tipos de análisis:
      Caracterización, Asociación,
      Clasificación, Análisis de grupos,
      Evolución (en espacio o tiempo) y
      Análisis de desviaciones.
    • Módulo de evaluación: Mide que
      tan interesante es un patrón. Interactúa con el
      algoritmo de
      Minería de Datos para guiar la búsqueda hacia
      patrones interesantes.
    • Interfaz gráfica: Interacción con el usuario.
      Elección de la tarea de minería de datos. Provee
      información para enfocar la búsqueda. Ayuda a
      evaluar los patrones. Explora los patrones encontrados y la
      base de datos original. Visualiza los patrones en distintas
      formas.

    5. MÉTODOS
    DE MDE

    Los métodos de MDE son aplicados para extraer
    conocimiento interesante y regular. Estos métodos pueden
    ser usados para entender los datos espaciales, descubrir
    relaciones entre datos espaciales y no espaciales, reorganizar
    los datos en bases de datos espaciales y determinar sus
    características generales de manera simple y concisa
    (Michalski et al. 1998).

    Existen cinco grupos de métodos de
    MDE:

    • Métodos basados en
      generalización
      . Los cuales requieren la
      implementación de jerarquías de conceptos, en el
      caso de las bases de datos espaciales estas jerarquías
      pueden ser temáticas o espaciales. Una jerarquía
      temática puede ser ejemplificada al generalizar mango y
      piña a frutas. Una jerarquía espacial puede ser
      ejemplificada generalizando varios puntos en un mapa como una
      región y un grupo de
      regiones como un país.
    • Métodos de reconocimiento de patrones.
      Estos pueden ser usados para realizar reconocimientos y
      categorizaciones automáticas de fotografías,
      imágenes y textos, entre otros.
    • Métodos que usan agrupamiento.
      Consisten en crear agrupaciones o asociaciones de datos, cuando
      en estos existan nociones de similaridad (por ejemplo,
      distancia Euclidiana). Clustering es el proceso de agrupar
      datos en grupos o clusters de
      tal forma que los objetos de un cluster tengan una similaridad
      alta entre ellos, y baja con objetos de otros clusters.
    • Métodos explorando asociaciones
      espaciales.
      Permiten descubrir reglas de asociaciones
      espaciales, es decir, reglas que asocien uno o más
      objetos espaciales con otro u otros objetos espaciales (X -Y
      (c%)), donde X y Y son un conjunto de predicados espaciales o
      no espaciales y c% es la confianza de la regla. Su
      aplicación está en bases de datos grandes, donde
      puede existir una gran cantidad de asociaciones entre los
      objetos, pero la mayoría de ellos serán
      aplicables solamente a un pequeño número de
      objetos, teniendo en cuenta que la confianza de la regla puede
      ser baja.
    • Métodos que utilizan aproximación y
      agregación.
      Descubren conocimiento en base a las
      características representativas del conjunto de datos.
      La proximidad agregada es la medida de proximidad del sistema
      de puntos en el grupo en base a una característica en
      comparación con el límite del grupo y el
      límite de una característica. Las consultas de
      proximidad solicitan objetos que se hallen cerca de una
      posición específica

    En figura 3 se observa la clasificación de los
    métodos de minería de datos espaciales:

    Figura 3. Métodos para el
    descubrimiento de conocimiento en BDE. Tomado de J. Adhikary,
    2001

    6. ALGORITMOS DE
    AGRUPAMIENTO

    En los últimos 30 años, los
    análisis de agrupamientos (cluster) se han aplicado
    fuertemente a muchas áreas tales como la medicina
    (clasificación de enfermedades,), química (agrupamiento
    de compuestos), estudios sociales (clasificación de
    estadísticas), entre otros.

    Su principal objetivo es identificar estructuras o
    subclases de los objetos en las bases de datos espaciales y que
    tengan algún sentido. La ventaja principal de usar esta
    técnica es que las estructuras o los agrupamientos
    interesantes se pueden encontrar directamente en los datos sin
    tener ningún conocimiento de fondo.

    A pesar de que no existe una definición general
    de un agrupamiento, se han desarrollado algoritmos que encuentran
    diferentes clases de clusteres: esféricos, lineales,
    irregulares, entre otros. Motivados por su amplia gama de
    aplicaciones los investigadores han desarrollado técnicas
    para agrupar datos de diferentes tipos: binarios, nominales y
    otras clases de variables
    discretas, variables continuas, similaridades y disimilaridades.
    En Kaufman y Rousseeuw, 1990 se discute y analiza con más
    detalle las anteriores definiciones.

    6. 1 Divisiones de Algoritmos de
    agrupamiento

    Existen tres divisiones principales de algoritmos de
    agrupamiento: el agrupamiento particional, agrupamientos
    jerárquico y agrupamiento basado en localidades (figura
    4). El agrupamiento particional (Partitional), desarrolla
    una partición de los datos tal que los objetos en un grupo
    son más similares a algunos que ellos a los objetos en
    otros grupos (Kennedy et al., 1998). Este método
    construye k particiones de los datos, donde cada partición
    representa un grupo o cluster. Cada grupo tiene al menos un
    elemento y cada elemento pertenece a un solo grupo.

    También, crea una partición inicial e
    iteran hasta un criterio de paro. Los
    más populares utilizan k-medias y k-medioides (por
    ejemplo, PAM, CLARA y CLARANS). El agrupamiento
    jerárquico (hierarchical),
    combina grupos
    pequeños en grupos grandes, o particiona los grupos
    grandes. En el agrupamiento basado en localidades
    (locality-based),
    los objetos del grupo se basan en las
    relaciones locales, y por consiguiente la base de datos puede
    examinarse en un paso.

    6.2 Clasificación de los algoritmos de
    agrupamiento.

    Se habla de algoritmos directos, constructivos o
    heurísticos cuando no optimizan ninguna función
    criterio. Si usan una función criterio a optimizar se
    habla de algoritmos indirectos o por optimización(Ester et
    al. 1996).

    Por otro lado, según la filosofía empleada
    para la construcción de agrupamientos se
    distinguen: algoritmos aglomerativos o incrementales
    (bottom-up)
    los cuales parten de patrones aislados y tienden
    a unir agrupamientos de acuerdo a algún umbral fijado (por
    ejemplo, AGNES). Los algoritmos divisivos o decrementales
    (top-down)
    se generan a partir de agrupamientos ya
    establecidos y tienden a crear nuevos agrupamientos más
    homogéneos. (por ejemplo, DIANA). Por su parte los
    algoritmos mixtos como su nombre indica, incorporan
    procesos de
    creación y mezcla de nuevos agrupamientos.

    Figura 4. División de algoritmos
    de agrupamiento en un MDE

    Existen otros métodos de agrupamiento; Los
    métodos basados en densidades en los que se agrupan
    objetos mientras su densidad
    (número de objetos) en la "vecindad" este dentro de un
    cierto umbral (por ejemplo, DBSCAN, DENCLUE). Lo métodos
    basados en celdas en los cuales se divide el espacio en
    celdas a diferentes niveles (por ejemplo, STING, CLIQUE); y los
    métodos basados en modelos donde se debe encontrar
    un modelo para
    cada cluster que mejor ajuste los datos de ese grupo (por
    ejemplo, COBWEB, AutoClass).

    7. TÉCNICAS
    DE MDE BASADAS EN AGRUPAMIENTOS

    El clustering o agrupamiento es el proceso de
    particionar un conjunto de datos (u objetos) en un conjunto de
    subclases significativas llamadas grupos (clusters). Un grupo es
    una colección de objetos de datos que son similares a
    otros y así pueden ser tratados
    colectivamente como un grupo.

    El agrupamiento es una forma de clasificación no
    supervisada en la que, a diferencia de la supervisada, no se
    conocen las etiquetas de las clases (no hay clases predefinidas)
    y puede que tampoco se conozca el número de
    grupos.

    Un buen método de agrupamiento produce grupos de
    alta calidad en los
    cuales la similaridad intra-clases (esto es, dentro del grupo) es
    alta y la similaridad inter-clase (entre las clases) es baja. La
    medida de similaridad se define usualmente por proximidad en un
    espacio multidimensional. A continuación se presentan los
    algoritmos de agrupamiento PAM, CLARA desarrollados por Kaufman y
    Rousseeuw, CLARANS desarrollado por Ng y Han, 2002 basado en los
    dos primeros, SD CLARANS, NSD CLARANS Y CLARQ desarrollado en
    Colombia por el
    autor.

    7.1 PAM (Partitioning Around
    Medoides
    )

    El algoritmo PAM fue desarrollado por Kaufman y
    Rousseeuw. En éste se asume que existen n objetos, y que
    para encontrar K clusters (agrupamientos), se determina un objeto
    representativo para cada agrupación. Tal objeto
    representativo, es un punto centralmente localizado dentro de un
    grupo, denominado medoide. Después de seleccionar los
    medoides de K, el algoritmo intenta analizar todos los pares
    posibles de objetos, tales que, cada objeto no seleccionado es
    agrupado con el medoide más similar (Son et al., 2000). La
    calidad de la medida de agrupamiento se calcula para cada
    combinación.

    La mejor opción de puntos en una
    iteración, se elige como los medoides para la
    iteración siguiente (figura 5). El coste de una sola
    iteración es O(K(n-K)²). Por lo tanto el computo es
    ineficaz para los valores
    grandes de n y de K.

    Figura 5. Algoritmo PAM Tomado de Son
    et al. 2000
    .

    7.2 CLARA (Clustering Large
    Applications
    ).

    La diferencia entre los algoritmos de PAM y CLARA es que
    el último esta basado en el muestreo,
    solamente una pequeña porción del total de datos se
    elige, mientras que un representante de los datos y los medoides
    se elige de esta muestra usando
    PAM.

    La idea es que si la muestra se selecciona al azar,
    después representa correctamente el conjunto total de
    datos y por lo tanto, los objetos representativos (medoides)
    elegidos, serán similares como si se eligiera del conjunto
    total de datos (WEISS y INDURKHYA, 1998). CLARA dibuja muestras
    múltiples y realiza mejores agrupamientos. CLARA puede
    ocuparse de datos más grandes que PAM. La complejidad de
    cada iteración ahora se convierte O(KS² + K(n-K)),
    donde S es el tamaño de la muestra. PAM busca los mejores
    medoides de K entre un conjunto total de datos, mientras que
    CLARA busca los mejores medoides de K entre la muestra
    seleccionada del conjunto total de datos.

    7.3 CLARANS (Clustering Large Applications based
    on RANdomized Search
    )

    CLARANS, mezcla de PAM y CLARA, fue desarrollado por NG
    R. y HAN J. 2002, para el análisis de agrupamientos.
    CLARANS dibuja una muestra con una cierta aleatoriedad en cada
    paso de la búsqueda. El proceso de agrupamiento se puede
    presentar como buscar un gráfico donde la solución
    es cada nodo potencial, es decir, un sistema de medoides de
    K.

    El agrupamiento obtenido después de sustituir un
    solo medoide se denomina el vecino de agrupamiento actual. El
    número de vecinos que se manejarán aleatoriamente
    son restringidos por el máximo vecino del
    parámetro. Si encuentran a un vecino mejor CLARANS se
    mueve al nodo del vecino y el proceso comienza otra vez; si no el
    agrupamiento actual produce un grado óptimo
    local.

    Si se encuentra en el grado óptimo local CLARANS
    comienza con un nuevo nodo aleatoriamente seleccionado, en
    búsqueda para un nuevo grado óptimo local. El
    número de los grados óptimos locales que se
    buscarán también es limitado por el
    parámetro de números locales.

    7.4 CLARQ (Clustering Large Applications based on
    Quadrant analysis
    )

    El algoritmo CLARQ fue desarrollado por García,
    2003, quién propone usar un análisis previo de la
    estructura de
    los datos mediante un análisis de cuadrantes de los puntos
    a analizar, el autor propone una forma de realizar
    cálculos solamente en aquellos pares de objetos que puedan
    mejorar la calidad del agrupamiento, en lugar de realizar un
    chequeo de todos los pares de objetos tal y como se realiza en
    los algoritmos anteriores.

    El análisis de cuadrantes es una técnica
    de estadísticas espaciales para el análisis de
    fenómenos de datos geográficos de tipo punto
    (mapas puntuales).
    Las URG (uniform regular grids) o cuadrantes son el caso
    más simple de estructura en el modelo de datos raster: el
    terreno se "recubre" con un mosaico de teselas cuadradas que
    representan la unidad de información elemental donde cada
    tesela posee el valor medio de
    la zona cubierta para la variable correspondiente.

    El análisis requiere la imposición de
    grillas de igual tamaño (cuadrantes) sobre los puntos para
    estimar el grado de aleatoriedad en su distribución. Si los puntos están
    uniformemente distribuidos, se espera que cada cuadrante contenga
    el mismo número de puntos. La prueba del chi-cuadrado
    X2 para la bondad del ajuste de la
    hipótesis de que
    no existe diferencias entre el número de puntos de cada
    cuadrante, está dada como:

    X2 = å i
    (Oi –
    Ei)2/Ei

    Donde O es el número de puntos observados y es la
    frecuencia de cuadrantes con un número igual de puntos. E
    es el número de puntos esperados y es el total de puntos
    datos (x) dividido por el núemro de cuadrantes (m). La
    aletoriedad espacial en el patrón de distribución
    de los puntos se estima utilizando la distribución de
    Poisson. Se asume que si x puntos existen en un área con m
    subáreas de igual tamaño (cuadrantes), la probabilidad P(x)
    de que x puntos están en una de esas subáreas
    es:

    P(x) = [e-m mx] / x!

    Donde x, el numero esperado de puntos en cada cuadrante
    no debe ser menos de 5. El número esperado de cuadrantes
    que contienen x puntos es calculado entonces por:

    E(x) = P(x)*m

    El valor que se retorna del chi-cuadrado
    X2 es chequeado contra el valor crítico
    X2 del disponible en cualquier tabla
    estadística estándar (df = m-2) para validar la
    anterior hipótesis. Esta técnica se ha probado con
    éxito
    la estimación de distribución de especies en
    ecología y
    distribución de fenómenos de puntos en geografía
    (García, 2003).

    8.
    CONCLUSIONES

    Con la presentación de herramientas
    de minería de datos espaciales este trabajo
    propone varios métodos para el descubrimiento de
    conocimiento en bases de datos espaciales muy grandes. Estos
    métodos combinan las áreas ya maduras de la
    ingeniería
    de sistemas como el aprendizaje de
    máquinas, bases de datos y
    estadística con áreas de la
    heurística.

    Se demostró que la minería de datos
    espaciales es un campo de investigación promisorio con amplias
    aplicaciones en SIG, sensores remotos,
    visión robótica, entre otros.

    A pesar de que este campo es muy joven, se estudiaron
    varias técnicas y algoritmos para descubrir conocimiento
    en bases de datos espaciales. En el estudio de los métodos
    existentes para minería de datos espaciales de la presente
    tesis se mencionaron cada una de las fortalezas y debilidades de
    los métodos. Esto permitió observar cuales
    serían las futuras direcciones y sugerencias para hacer
    investigación en minería de datos
    espaciales.

    Existe una variedad de tópicos no explorados y
    problemas que
    hacen atractivo el campo de investigación en
    descubrimiento de conocimiento en bases de datos espaciales. Por
    ejemplo, faltan refinar los algoritmos de agrupamiento cuando se
    trabaja con mapas de polígonos.

    9.
    BIBLIOGRAFÍA

    BOSQUE J., GARCÍA E. & SALADO Mª J.
    (1994) Sistemas de Información Geográfica:
    Prácticas con PC ARCINFO e IDRISI
    . Editorial
    Addison-Wesley Iberoamericana y Ra-ma.

    CABENA P., HADJINIAN P., STADLER R., VERHEES J. &
    ZANASI A. (1998) Discovering Data Mining. Prentice
    Hall.

    ESTER M., KRIEGEL H.-P., SANDER J. & XU X. (1996)
    A Density-Based Algorithm for Discovering Clusters in Large
    Spatial Databases with noise
    . Published in Proceedings of 2nd
    International Conference on Knowledge Discovery and Data
    Mining.

    FAYYAD U.M., PIATETSKY-SHAPIRO G., SMYTH P. &
    UTHURUSAMY, R. (1996) Advances in Knowledge Discovery and Data
    Mining
    . AAAI/MIT Press.

    GARCÍA G. I. (2003) CLARQ, Un método
    para el análisis eficiente de grandes bases de datos
    espaciales
    . GIGACOL Geomatics Engineering Laboratory. (en
    preparación).

    HOLSHEIMER M. y SIEBES A. (1994) Data mining: The
    search for knowledge in databases
    . In CWI Technical Report
    CS-R9406, Amsterdam, The Netherlands.

    KENNEDY R. L., LEE Y., VAN ROY B., REED C. D. &
    LIPPMAN R.P. (1998) Solving Data Mining Problems Through
    Pattern Recognition
    . Prentice Hall.

    MICHALSKI R. S., BRATKO I. & KUBAT M. (1998)
    Machine Learning and Data Mining, John Wiley &
    Sons.

    NG R. & HAN J. (2002) CLARANS: A Method for
    Clustering Objects for Spatial Data Mining
    ., Member, IEEE
    Computer Society. IEEE Transactions on knowledge and Data
    Engineering, vol. 14, no. 5, september/october.

    PIATETSKY-SHAPIRO G. & FRAWLEY W. J. (1991)
    Knowledge Discovery in Databases. AAAI/MIT
    Press.

    PINEDA L., VEGA J. & DORADO A. (1998)
    Evaluación y Selección
    de una Técnica de Minería de Datos
    .. Facultad
    de Ingeniería Pontificia Universidad
    Javeriana.

    SILBERCHATZ A., KATH H. & SUDARSHAN S. (2001).
    Fundamentos de Bases de datos. Tercera Edición.

    SON E. J., IN-SOO K., KIM, T. W. & LI, K. (2000).
    A Spatial Data Mining Method by Clustering Analysis.
    Information System and Engineering Laboratory, Department of
    Computer Science, Pusan National University.

    WEISS S. M. & INDURKHYA N. (1998). Predictive
    Data Mining,
    Morgan Kaufmann Publishers.

     

     

    Autor:

    Ing. MSc. Gustavo Iván
    García

    GIGACOL Geomatics Engineering Laboratory

    http://www.gigacol.com

    Bogotá, Colombia

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter