Glosario de Términos
Básicos
Censo de población: es un conjunto de operaciones que
reúnen, elaboran y publican datos
demográficos, económicos y sociales
correspondientes a todos los habitantes de un país o
territorio, referidos a un momento determinado o a ciertos
períodos dados.
Muestra: una muestra es un
conjunto de casos o individuos procedente de una población
estadística que cumple las siguientes
características: La muestra debe ser representativa de la
población de estudio. Para cumplir esta
característica la inclusión de sujetos en la
muestra debe seguir una técnica de muestreo.
Estadística: la estadística es la
rama de las matemáticas que describe los
fenómenos donde no hay un componente absoluto, es decir es
discreta, y sus modelos son
estocásticos. La estadística ayuda a todas las
demás ciencias a
generar modelos matemáticos "generales" donde se haya
considerado el componente aleatorio.
Clustering: Es la agrupación que realizan los
buscadores
para no mostrar más de un cierto número de
páginas de una web para una
determinada búsqueda.
Data Warehouse: un Data Warehouse
(DW) es un almacén o
repositorio de datos categorizados, que concentra un gran
volumen de
información de interés
para toda una organización, la cual se distribuye por
medio de diversas herramientas
de consulta y de creación de informes
orientadas a la toma de
decisiones.
Inteligencia: la inteligencia
es una facultad especial propia de ciertas clases de seres
orgánicos que les otorga, juntamente con el pensamiento,
la voluntad de obrar, la conciencia de la
existencia y de la Individualidad, así como también
los medios de
establecer relaciones con el mundo exterior y de atender a sus
necesidades.
Inteligencia Artificial: se define la inteligencia
artificial como aquella inteligencia exhibida por artefactos
creados por humanos (es decir, artificial). A menudo se aplica
hipotéticamente a los computadores. El nombre
también se usa para referirse al campo de la investigación científica que intenta
acercarse a la creación de tales sistemas.
Árbol de decisión: gráfico
que muestra las posibilidades que existen ante un hecho
determinado. Cada decisión se convierte en un "nodo" del
que se generan "ramas" que muestran las opciones disponibles. A
su vez, éstas crean nuevas "ramas" con lo que se conforma
el árbol"
Base de datos: conjunto de registros
(unidades de información relevante) ordenados y
clasificados para su posterior consulta, actualización o
cualquier tarea de mantenimiento
mediante aplicaciones específicas.
Varianza: en teoría
de probabilidad y
estadística la varianza es un estimador de la divergencia
de una variable aleatoria de su valor esperado
. También se utilizan la desviación
estándar, la raíz de la varianza.
Covarianza: en teoría de probabilidad y
estadística la covarianza es un estimador de la
dependencia lineal de dos variables
aleatorias.
Desviación estándar: en
probabilidad y estadística, la desviación
estándar es la medida más común de
dispersión. Dicho de manera sencilla, mide qué tan
dispersos están los valores en
una colección de datos.
Indicador: relación entre dos variables
que sirve para medir un resultado. Por ejemplo: indicador de
cobertura número de personas atendidas/número de
solicitantes de un servicio.
Afeitadora de Occam: principio de la ciencia que
determina que cuando todas las condiciones son iguales, se
prefieren las teorías
simples. Es decir, la mejor teoría científica es
aquella que explica todos los hechos y tiene el menor
tamaño. Como Einstein sostuvo: "Todo debe hacerse lo
más simple posible, pero no más simple que
eso".
Aprendizaje Supervisado: en el aprendizaje
supervisado o aprendizaje a
partir de ejemplos, el experto define clases y provee ejemplos de
cada una. El sistema debe
obtener una descripción para cada clase. Cuando
el experto define una única clase, provee ejemplos
positivos (pertenecen a la clase) y negativos (no pertenecen a la
clase). En este caso, los ejemplos importantes son los cercanos
al límite, porque proveen información útil
sobre los límites de
la clase.
CAPÍTULO III
MARCO
METODOLÓGICO
Naturaleza de la
InvestigaciónCon el propósito de
desarrollar un sistema que permita el estudio de minería de datos en la base de
datos de censo de población del estado
Lara utilizando árboles de decisión para
clasificar los hogares con la finalidad de calcular los
indicadores de pobreza, se
realiza un estudio enmarcado en la modalidad de investigación de campo en el
ámbito de proyecto
factible.La Universidad Fermín Toro a través
del Manual de
Normas para
la presentación de trabajo de
grado de la Universidad "Fermín Toro" (2001) define la
modalidad del proyecto factible como "una propuesta basada en
la factibilidad
para la resolución de un problema dado. Puede apoyarse
tanto en la investigación de campo como documental o
un diseño, que incluya ambas modalidades.
Puede referirse a la formulación de políticas, programas,
técnicas, métodos, procesos",
(p.6).Las técnicas que serán utilizadas para
la recolección de información y la puesta en
marcha del mismo, fueron clasificadas según el nivel
de conocimiento.La presente investigación se apoya en una
indagación documental, ya que se recolectó
información, obtenida en diversos libros,
páginas
Web, trabajos de grado relacionadas con las
técnicas de inteligencia artificial y censos de
población. Se utilizó la investigación
de campo debido a que se realizó la
recolección, procesamiento y análisis de los datos directamente de
la realidad, para lograr de esta forma la obtención de
información objetiva y concreta.Fases de la
InvestigaciónPara tener un orden progresivo
de las acciones y
actividades que se realizaron durante el desarrollo
de la prepuesta, la misma se divide en las siguientes
fases:Fase I:
DiagnósticoEn esta fase se recolectó toda la
información necesaria para el análisis del
problema. Se utilizó la investigación
documental en varias fuentes
bibliográficas especializadas en inteligencia
artificial, aprendizaje automático y minería de
datos, además se captó información
proveniente de expertos especializados en el cálculo de indicadores sociales tomando
como referencia bases de datos censales, otra herramienta que
se utilizó fue la Internet,
visitando varios sitios Web a través de buscadores
como Altavista, Google,
Monografías, localizando información
relacionada con el tema de investigación. En esta fase
se pudo determinar la necesidad de contar con una herramienta
distinta a las tradicionales para analizar base de datos
censales.Fase II: Estudio de la
FactibilidadEl desarrollo de esta fase representa un paso
importante, ya que involucra la toma de decisión
acerca de si un proyecto es viable o no, se justifican con
detalle todos los agentes que participan o pueden afectar al
proyecto, por tanto se determina la factibilidad
técnica, económica y operativa.Factibilidad Técnica
Según Llorens (1991).
"La factibilidad técnica corresponde a un estudio de
la funcionalidad, el rendimiento y las restricciones que
puedan afectar a la posibilidad de un sistema aceptable"
(p.28).En el desarrollo de la
investigación se utilizaran recursos
de software,
hardware,
soporte técnico y humano, ya que es requisito
indispensable porque conforman la base tecnológica
requerida y empleada para el diseño de un sistema
basado en minería de datos.Para el desarrollo y la instalación de este
sistema, los requerimientos indispensables son los
siguientes:Cuadro 2
Requerimientos Mínimos de Hardware
Fuente: Borges (2006)
Cuadro 3
Requerimientos Mínimos de
SoftwareFuente: Borges (2006)
Para el desarrollo de este sistema se
utilizará la herramienta de software C++ Builder,
lenguaje de
programación de alto nivel orientado a eventos y
funciona bajo una plataforma de 32 bits en el sistema
operativo Windows
98/Me/2000/XP.C++ Builder
C++ Builder es una aplicación que proporciona
un entorno de trabajo visual para construir aplicaciones
Windows
que integra distintos aspectos de la programación en un entorno unificado o
integrado. La integración y facilidad de manejo hace
que sea una herramienta indispensable para el desarrollo
rápido de aplicaciones.Microsoft Windows
XPDentro de lo que es Windows
XP, existen dos versiones, casera (Home Edition) y la
versión Profesional (Professional). En este caso se
utilizará Windows XP Professional, ya que ayuda a
realizar más tareas en la
computadora y en la Internet, proporcionando una interfaz
amigable para el usuario y facilidad de uso.Es posible el impulso de este sistema debido a que
los módulos a desarrollar y el rendimiento necesario,
es técnicamente viable con los recursos anteriormente
mencionados, además existe disponibilidad en el
mercado de
estos recursos, tanto de software, hardware y de personal
calificado.En esta fase se presenta el análisis
económico de los recursos necesarios para el
desarrollo e implementación del sistema, tomando en
cuenta los aspectos señalados en el estudio
técnico, determinando la viabilidad del proyecto
ajustable a los recursos humanos materiales
y económicos para llevarlo a cabo.Para verificar la factibilidad de este proyecto, se
consideraron los recursos de hardware y software necesarios.
En cuanto al hardware, solo se requerirá de un
computador
para su funcionamiento. Este computador puede adquirirse en
el mercado, al igual que sus componentes (ver cuadro
No 4).Cuadro 4
Precio de Componentes de Hardware
Descripción
Costo (Bs.)
CPU Pentium IV 2.66 Ghz
364.232
256 de Memoria RAM
65.316
Disco Duro 80 GB
163.652
Monitor SVGA
259.918
Teclado, Ratón
32.114
Unidad de CD-ROM
38.765
Floppy disk 3 ½
18.425
Impresora HP Deskjet 3920
123.205
Regulador de Voltaje
39.903
Tarjeta Madre Foxconn 661MX
126.077
Total
1231.607
Fuente: Micro Max C.A (2006)
En cuanto al software, se utilizará Windows
XP como plataforma o sistema operativo, Base de datos donde
se encuentra almacenada la información requerida y
Lenguaje
C++ Builder para diseñar los diferentes
módulos que conforman el sistema y la interfaz con el
usuario. La combinación de este software ofrece un
ambiente
interactivo y amigable para el mismo.Cuadro No 5
Costos Aproximados del Software
Componentes del Software
Costo (Bs.)
Microsoft Windows XP Profesional
270.000
Borland C++ Builder 2006
2.343.500
Total
2.613.500
Fuente: Borges
(2006)Según Pressman (1997). Para obtener los
costos
asociados con el desarrollo de un sistema basado en computadoras, el análisis debe estimar
cada costo y
usar después el desarrollo y los costos sucesivos para
determinar la recuperación de lo invertido, un punto
de beneficio cero y un período de rentabilidad.Por otra parte, el sueldo de un programador en el
INE es de 1.220.000 Bs. mensuales, lo que representa un total
de 3.660.000 Bs. en tres meses.En la tabla que se presenta a continuación
(ver cuadro No. 6), se observa detalladamente cada
uno de los recursos necesarios con sus respectivos precios, y
la suma total de todos los recursos.Cuadro 6
Relación de precios. Factibilidad
económicaRecursos
Precio (Bs.)
Microsoft Windows XP Profesional, Borland
C++ Builder 20062.613.500
Sueldo del programador
3.660.000
Hardware requerido
1.231.607
Total
7.505.107
Fuente: Borges (2006)
- Factibilidad
Económica - El INE dispone de el hardware y software requerido lo
que reduce notablemente los costos y aumenta la factibilidad
del proyecto.Las estrategias aplicadas en el diseño del
sistema basado en minería de datos, son orientadas
para que el uso del sistema sea de una manera fácil y
amigable para ganar la atención e interés del usuario,
de tal manera que pueda ser usado por diferentes usuarios del
área de estadísticas, que tengan un
conocimiento básico de computación. Además el sistema
contará con un manual de usuario que guiaran al mismo
en el manejo del sistema. Por otra parte es conveniente
resaltar que el proceso de
minería realizado por el sistema es totalmente
transparente para el usuario por lo que el mismo no necesita
conocer los detalles para poder
operar el sistema. - Factibilidad Operativa
Esta fase es importante, ya que aquí se
definen y se aplican los recursos especificados anteriormente
y se analizan los resultados obtenidos en las fases
anteriores para la elaboración y ejecución del
sistema.El primer paso a seguir para la realización
del sistema es el levantamiento de la información,
referente a los sistemas basados en minería de datos y
la aplicación de este en el análisis de la base
de datos del censo de población del Estado
Lara.Luego se procederá al diseño de los
módulos encargados de realizar la minería de
datos basados en los algoritmos
ID3 y C4.5 los cuales permitirán hacer una
clasificación de los hogares de acuerdo a ciertas
características, lo cual permitirá construir
los índices de pobreza del Estado Lara. - Fase III: Diseño del
ProyectoDiseñar un sistema que permita la
aplicación de minería de datos aplicando
árboles de decisión en la base de datos
de censo de población del Estado
Lara.- Objetivos
Específicos
- Objetivo General
- Objetivos del Diseño
- Diseñar los módulos de opciones. Estos
módulos realizan todas las operaciones comunes al ID3 y
al C4.5, como el cambio de la
tabla de datos, la elección de la tabla, sobre la cual
se desea evaluar el rendimiento, entre otros. - Diseñar los módulos de minería
de datos. Son aquellos que construyen los árboles y las
reglas de decisión a partir de las tablas. - Diseñar el módulo de ayuda. En este
módulo el usuario podrá aclarar cualquier duda
sobre la información del sistema. - Diseñar el módulo de evaluación. Este módulo permite
evaluar los resultados obtenidos con el ID3 y el C4.5
respectivamente. - Diseñar el módulo de clave de acceso.
Este módulo maneja toda la información sobre los
usuarios del sistema.
Al tener listo el diseño, se procederá a
diseñar los diferentes algoritmos que permiten manipular
el Sistema de Minería de Datos Aplicando Árboles de
Decisión en la Base de Datos de Censo de Población
del estado Lara.
Culminando todos los procedimientos
antes descritos, se puede comenzar el desarrollo del
proyecto.
- CAPÍTULO IV
ANÁLISIS DE RESULTADOS
Desarrollo del Proyecto
Para el desarrollo del sistema Estudio de Minería
de Datos en Base de Datos de Censo de Población Aplicando
Árboles de Decisión (SIMIDACE Tree), se hizo
necesaria la elaboración de cuatro módulos, el
sistema está estructurado de la siguiente manera,(ver
figura No 5).
Figura 5
Estructura de SIMIDACE
Tree
SIMIDACE Tree, tiene como una de sus finalidades la
clasificación de los hogares de acuerdo a ciertas
características, lo cual permitirá construir los
índices de pobreza del Estado Lara con la base de datos
del censo 2001.
Cabe destacar que la minería de
datos se aplica cuando existe una gran acumulación de
datos y es imposible realizar el procesamiento manualmente, por
lo tanto esta tecnología facilita
la recolección y acumulación de datos, estos datos
ocultan tendencias que se pueden descubrir por medio de los
algoritmos ID3 y C4.5 que usan la técnica de
árboles de decisión, la cual es una forma de
representación sencilla, muy usada entre los sistemas de
aprendizaje supervisado, para clasificar ejemplos en un
número finito de clases. Se basan en la partición
del conjunto de ejemplos según ciertas condiciones que se
aplican a los valores de los
atributos. Su potencia
descriptiva viene limitada por las condiciones o reglas con las
que se divide el conjunto de entrenamiento.
Para realizar la minería se cumplieron una serie
de etapas que pertenecen al proceso de minería de
datos.
Etapas para la Minería de
Datos
Comprensión del problema
En esta etapa se centra la comprensión del
problema y en concretar los objetivos
perseguidos. El problema surge de la necesidad de contar con un
software que permita la construcción de indicadores
estadísticos como los índices de pobreza con un
menor esfuerzo manual y evaluar cantidades enormes de
datos.
En esta etapa se trabajó con la base
de datos del censo de población y vivienda del
Estado Lara, esto con la finalidad de que el sistema
detecte automáticamente conjuntos interesantes no explícitos
en los datos para formular hipótesis sobre información
oculta. Tras el estudio de la base de datos, se
efectuó una descripción de dichos datos,
desarrollando una exploración general sobre los
mismos y finalmente verificar la calidad
de los datos.- Comprensión de los datos
- Descripción de los datos
En la exploración de la base de datos del censo
del Estado Lara, se encontraron tres (3) tablas en formato mdb,
las cuales contienen la información sobre las viviendas,
hogares y personas del estado Lara. La cantidad de registros de
cada una de las tablas se especifica a
continuación:
- Viviendas 415.291 registros.
- Hogares 349.715 registros.
- Personas 1.556.416 registros.
Pre-procesamiento de los datos
Tomando como punto de partida la
información levantada en la etapa anterior en esta fase se
desarrollan las actividades destinadas a confeccionar el conjunto
de datos final (conjunto que servirá de entrada a los
algoritmos ID3 Y C4.5) a partir del conjunto inicial. No se debe
olvidar que estos algoritmos requieren de un entrenamiento
supervisado por lo que las tareas dedicadas a la
preparación de los datos se explican a
continuación:
Con la ayuda del experto en estadística y
análisis de datos, se relacionaron las tablas mencionadas
anteriormente con el objeto de obtener en una sola tabla todos
los registros de viviendas, hogares y personas. Luego se
procedió a seleccionar de esta tabla los campos que
permitirán construir el índice de pobreza en
el Estado Lara
de acuerdo al método
Necesidades Básicas Insatisfechas (NBI).
La tabla obtenida tiene un total de 349.651 registros
que corresponden al total de hogares del estado Lara según
el censo de población y vivienda 2001. Luego se
procedió a separar estos hogares por municipio,
obteniéndose un total de nueve tablas, una por cada
municipio del estado. Dado que los algoritmos ID3 y C4.5
están orientados hacia el desarrollo de descripciones
simbólicas de los datos, los valores numéricos de
los registros fueron convertidos a etiquetas. Posteriormente se
exportaron estas tablas en formato dbf, txt y db, para poder ser
procesadas por el sistema. La figura 6 , muestra un ejemplo de la
tabla que sirve de entrada al sistema.
Figura 6
Tabla de entrada al sistema SIMIDACE
Tree
Para todas las tablas los atributos son los
siguientes:
Nombre del campo | Valores posibles |
Escolaridad | Asisten, No asisten |
| |
Hacinamiento | No hay hacinamiento, Hay hacinamiento |
Vivienda | Adecuada, Inadecuada |
Servicios | Con servicios Básicos, Sin servicios |
Dependencia | Sin Dependencia Económica, Alta |
El método (NBI) consiste en cuantificar la pobreza de
aquellos hogares que habitan en viviendas familiares,
seleccionando cinco parámetros que indican el grado de
satisfacción de cada una de las necesidades, considerando
un nivel mínimo para cada indicador, es decir, se
clasifican los hogares de acuerdo al número de necesidades
insatisfechas que presenten. Los hogares se catalogan en pobres
cuando presentan por lo menos una necesidad básica
insatisfecha y en pobres extremos si presentan dos o más
necesidades básicas insatisfechas.
El NBI analiza variables o parámetros que son
poco sensibles a variaciones en el corto plazo, las cuales
determinan la medición estructural de la pobreza,
proporcionando características asociadas a necesidades en
cuanto a: educación,
dependencia económica, servicios básicos (agua potable,
eliminación de excretas) y condiciones de habitabilidad de
las viviendas (hacinamiento y viviendas inadecuadas). De acuerdo
al experto dichos parámetros o variables son:
- Hogares con niños
en edad escolar (7 a 12 años) que no asisten a la
escuela. - Hogares en hacinamiento crítico: mide el grado
de hacinamiento en los cuartos de la vivienda, que los
integrantes de un hogar utilizan para dormir, se incluyen en
esta clasificación aquellos hogares en los cuales hay
más de tres personas por cuarto para dormir. - Hogares en Viviendas Inadecuadas: Considera los
hogares que habitan en viviendas improvisadas (Ranchos y
ranchos campesinos), en casas de vecindad y en otra clase
(trailer o remolques, embarcaciones, carpas, cuevas,
etc.). - Hogares en viviendas sin servicios básicos: A
través de este indicador se mide la inaccesibilidad de
los hogares a agua potable
y a eliminación de excreta, de acuerdo al área
geográfica donde se encuentran. Cuando un hogar
corresponde al área urbana se toma en
consideración si carece de al menos uno de los dos
servicios. En caso de que pertenezca al área rural se
considera si carece de los dos servicios
simultáneamente. - Hogares con alta dependencia económica: Se
refiere a las condiciones de empleo de
los integrantes del hogar y a la
educación del jefe del mismo. En el se contempla
aquellos hogares con más de tres personas por ocupado,
cuyo jefe de hogar no haya alcanzado una escolaridad de tres
grados o tres años.
Con estas variables más el campo que
servirá como clasificador según criterio del
experto, los algoritmos ID3 y C4.5 podrán generar el
árbol de decisión y transformarlo a reglas de
decisión, lo cual facilitará enormemente la
clasificación de los hogares en pobres o no
pobres.
Vale la pena mencionar que las distintas
metodologías o indicadores que se utilizan para la
identificación de hogares en situación de pobreza
no son medidas alternativas de un mismo fenómeno, sino
más bien visiones distintas, y complementarias, de un
fenómeno complejo de múltiples aristas. Por eso no
es conveniente privilegiar en particular una sola medida sino
realizar un estudio comparativo de los factores altamente
asociados a la condición de vida pobre según cada
indicador, con el fin de obtener el conjunto de estos factores
que mejor explica la condición de vida pobre.
A continuación se muestra en la figura
No 7, la estructura
jerárquica del sistema en donde se observan los
diferentes módulos y sub-módulos que permiten
realizar las funciones para
las cuales fue diseñado el sistema.
Figura 7
Carta Estructurada de SIMIDACE
Tree
Descripción
general
Para estudiar los algoritmos propuestos se
desarrolló un sistema que integra el ID3 y el C4.5. El
sistema recibe los datos de entrenamiento como entrada y permite
que el usuario elija cuál algoritmo y
con qué criterio de decisión (ganancia o
proporción de ganancia) desea aplicar. Una vez generados
el árbol y las reglas de decisión, el usuario puede
evaluar los resultados sobre los datos de prueba. En el caso del
ID3, esta evaluación se realiza a partir de las reglas de
decisión cuya performance, es idéntica a la de los
árboles. La evaluación de los resultados del C4.5,
en cambio, se realiza por separado y se obtienen, por lo tanto,
dos evaluaciones distintas, una para el árbol y otra para
las reglas.
Esto se debe a que el modelo de
clasificación generado con el C4.5 como árbol de
decisión es distinto al generado como reglas de
decisión. La figura 8. presenta un esquema general del
funcionamiento del sistema.
Figura 8
Esquema General del sistema SIMIDACE
Tree
A continuación se presenta de manera detallada
los procedimientos que se siguieron para llevar a cabo los cuatro
(4) módulos principales del sistema.
Módulo de Acceso al
Sistema
Para iniciar el funcionamiento del sistema se solicita
un nombre de usuario y una clave, que se crea para evitar que
personas no autorizadas puedan acceder al sistema y de una u otra
manera se destruya o altere la información contenida en el
mismo. El administrador del
sistema controla el acceso al mismo asignando nombre de usuario y
clave de acceso en el sub-módulo usuarios. Existen dos
tipos de usuarios en el sistema, uno con nivel o estatus cero (0)
y otro con estatus uno (1). El usuario con estatus cero, tiene
acceso a todas la opciones del sistema y el usuario con estatus
uno, solo puede evaluar el rendimiento del sistema con las
corridas hechas en el mismo. El diagrama de flujo
correspondiente al módulo de acceso al sistema es el
siguiente:
Figura 9
Diagrama de flujo de acceso al
sistema
- Módulo Minería
Este módulo agrupa todas las funciones necesarias
para aplicar el ID3 y el C4.5 a una tabla. Se utiliza tanto para
generar el árbol de decisión como para construir
las reglas de decisión.. El corazón
del sistema reside en los sub-módulos ID3 y C45, quienes
aplican el ID3 y el C4.5 respectivamente. La figura 10 muestra el
diagrama
modular del módulo minería.
Figura 10
Diagrama modular del módulo
minería
En este sub-módulo a partir de los datos
disponibles, el ID3 analiza todas las divisiones posibles
según los distintos atributos y calcula la ganancia
y/o la proporción de ganancia para generar el
árbol y las reglas de decisión. Una vez
generado el árbol lo recorre en preorden y cada vez
que llega a una hoja, escribe la regla que tiene como
consecuente el valor de la misma, y como antecedente, la
conjunción de las pruebas
de valor especificados en todos los nodos recorridos desde
la raíz para llegar a dicha hoja.La figura 11, presenta el diagrama de flujo de
datos para la sección del ID3. Con una mirada
rápida, se observa que el árbol y las reglas
de decisión se generan a partir de los datos de
entrenamiento. A su vez, los procesos que los generan
graban el árbol, las reglas y las sentencias
SQL en
sus correspondientes archivos.
Además, se genera un log del proceso. Por otro lado,
la evaluación de resultados se realiza a partir de
las sentencias SQL y de los datos de prueba.Figura 11
Diagrama de flujo de datos del
ID3Cada uno de los procesos mostrados en la figura 11
se describe en las secciones siguientes.- Diseño para el ID3
- Generación del árbol de
decisión
Este proceso genera el árbol de decisión
según el algoritmo explicado para el ID3.El árbol
se construye a partir de los datos de entrenamiento en formato
db, dbf o un archivo plano
seleccionado por el usuario.
Durante este proceso se genera un archivo de log que
guarda todos los cálculos de ganancia y de
proporción de ganancia realizadas en cada paso; y el
atributo escogido para realizar la división. El archivo de
log se encuentra dentro del directorio donde está
instalado el programa, y su
nombre está compuesto de la siguiente manera:
MétodoDD-MM-AA HH_MM_SSNombreTabla.log. Esto permite
identificar fácilmente el log correspondiente a una
corrida. El formato del archivo de log se especifica a
continuación:
Archivo de Log del ID3
Durante la generación del árbol de
decisión, se genera un archivo de log que almacena todos
los cálculos realizados. En cada paso, se
almacenan:
- El "Nivel" en el que se está,
entendiéndose por "Nivel" el número de ciclo de
procesamiento en el que se está.El nombre del descriptor
Una matriz con
la cantidad de instancias pertenecientes a cada clase para
cada valor posible del descriptor.El valor de la ganancia.
El valor de la proporción de
ganancia. - Para cada descriptor:
- La ganancia o la proporción de ganancia
máxima (según el criterio de división con
el que se esté trabajando).
A continuación se presenta una entrada del
archivo de log.
Este proceso realiza la poda del árbol de
decisión según la metodología explicada en las bases
teóricas.- Poda del árbol de
decisiónUna vez podado, el árbol de decisión
se muestra en pantalla, de forma tal que figure la prueba
realizada en cada nodo y el valor de la prueba en cada
rama, como aparece en la figura 12.Figura 12
Formato del árbol de
decisión impreso en pantalla - Impresión del árbol de
decisión en pantallaA partir del árbol de decisión
podado, se generan las reglas de decisión de acuerdo
con el método explicado en las bases
teóricas. Se guarda en disco un archivo de texto
que contiene las reglas obtenidas, y un archivo de Paradox
que contiene las sentencias SQL equivalentes.
También se genera otra tabla de Paradox,
"Updates.db", que contiene los datos necesarios para
identificar la transformación correspondiente a cada
sentencia SQL.Guardado del árbol de decisión a
discoUna vez presentado el árbol por pantalla,
se le ofrece al usuario la posibilidad de guardarlo en el
disco rígido. Si acepta, el árbol se guarda
en el directorio donde esta instalado el programa. La
extensión del archivo resultante es
"tree".Evaluación de los
resultadosA partir de una lista de corridas realizadas, el
usuario elige cuál corrida del ID3 desea evaluar.
Los datos de las corridas previas están almacenados
en la tabla "Updates Header". Una vez realizada la
elección, se obtienen de la tabla de Sentencias SQL"
las sentencias SQL generadas durante la
transformación del árbol a reglas de
decisión. Estas sentencias se aplican al conjunto de
datos de prueba determinado por el usuario.Se genera una matriz de confusión que
indica para cada clase la cantidad de casos correctamente
clasificados y los incorrectamente clasificados. Se calcula
la probabilidad de que un caso sea clasificado
correctamente como perteneciente a esa clase. Finalmente,
se obtienen los totales generales. La matriz de
confusión obtenida se muestra en pantalla. La Figura
13 muestra un ejemplo de dicha matriz de
confusión.Figura 13
Matriz de confusión
generada durante la evaluación de los
resultados - Transformación a reglas de
decisiónEl archivo de reglas de decisión generado
durante la transformación a reglas de
decisión contiene las reglas para el árbol
analizado. Por cada regla guarda el número de regla
y la regla en sí.Archivo del Árbol de decisión del
ID3Cuando el usuario elige guardar el árbol de
decisión a disco, este se almacena en un archivo
plano, tabulándose n veces cada
renglón, siendo n el nivel del nodo de
decisión. A continuación se muestra el
contenido de un archivo ".tree" a modo de
ejemplo. - Archivo de Reglas de decisión del
ID3La figura 14, presenta el diagrama de flujo de
datos general para la sección del C4.5. A simple
vista, se observa que el diseño de este proceso
difiere ligeramente del diseño del ID3. Aunque los
procesos principales (generación y poda del
árbol de decisión, generación de las
reglas de decisión, evaluación de los
resultados) se mantienen, se encuentra que hay dos
evaluaciones de resultados, una para el árbol de
decisión y otra para las reglas.Figura 14
Diagrama de flujo de datos del
C4.5Esto se debe a que, a diferencia del ID3, las
reglas de decisión y el árbol generados por
el C4.5 no son modelos de clasificación
equivalentes. Por otro lado, se encuentra que tanto el
archivo del árbol de decisión como el de las
reglas de decisión se presentan junto a la
evaluación de resultados. Se debe recordar que, como
se explicó en las bases teóricas, el C4.5
evalúa cada rama y cada regla en particular. Por lo
tanto, la evaluación no puede separarse de los
modelos generados.Cada uno de los procesos mostrados en la figura 14
se describe en las secciones siguientes.Generación del árbol de
decisiónEste proceso genera el árbol de
decisión según el algoritmo explicado para el
C4.5 en las bases teóricas. El árbol se
construye a partir de los datos de entrenamiento en formato
db, dbf o un archivo plano seleccionado por el
usuario.Poda del árbol de
decisiónEste proceso realiza la poda del árbol de
decisión según la metodología
explicada en las bases teóricas.Evaluación del árbol de
decisiónEl árbol de decisión se
evalúa según el algoritmo explicado en las
bases teóricas . Se le agrega una prueba de valor a
cada rama y se genera una matriz de confusión a
partir de la performance del árbol sobre los datos
de prueba. - Diseño para el C4.5
El árbol de decisión se muestra en
pantalla para el usuario, de manera idéntica al
árbol generado para el ID3. - Impresión del árbol de
decisión en pantallaEl árbol de decisión generado, se
transforma a reglas de decisión según la
metodología explicada en las bases teóricas.
Las reglas se almacenan en un archivo con extensión
.rules.Evaluación de las reglas de
decisiónUna vez generadas las reglas de decisión,
el sistema las evalúa contra los datos de prueba.
Genera una apreciación de exactitud para cada reglan
y una matriz de confusión general. Almacena todos
los resultados en un archivo plano. - Transformación a reglas de
decisión - Archivo del árbol de decisión y
evaluación de resultados del C4.5
Durante la generación del árbol de
decisión, su correspondiente poda y su posterior
evaluación se genera un archivo de resultados obtenidos en
cada paso. En este archivo se almacenan:
N es la sumatoria de los casos de entrenamiento
fraccionales que llegan a cada hoja.E es la cantidad de casos, cubiertos por la hoja,
que no pertenecen a la clase de la misma.- El árbol de decisión sin podar, donde
cada rama tiene asociados dos números: N y E, cuyo
sentido se detalla a continuación: - El árbol de decisión podado, con dos
números N y E asociados, donde: N es la
cantidad de casos de entrenamiento cubiertos por la
hoja.
E es la cantidad de errores predichos, según la
distribución binomial, para la
hoja si una cantidad N de nuevos casos fuese evaluada
por el árbol.
3. La evaluación sobre los datos de prueba con el
siguiente formato:
Antes de podar | Después de | |||
Tamaño | Errores | Tamaño | Errores | Estimación |
Donde:
Tamaño = cantidad de nodos + cantidad de
hojas
Errores = x (y%)
Con:
x = cantidad de casos clasificados
erróneamente
y = cantidad de casos clasificados erróneamente /
cantidad total de casos
Estimación =
Donde:
t es la cantidad de hojas del árbol
Ei es el E asociado a cada hoja
N es la cantidad total de casos de
entrenamiento
A continuación se presenta un archivo de
muestra.Archivo de Reglas de decisión y
evaluación de resultados del C4.5El formato del archivo de reglas de decisión
y evaluación de los resultados es el
siguiente:Regla
Tamaño
Error
Usada
Errores
Ventaja
Clase
Donde:
1. Regla: es el número de la
regla.2. Tamaño: es la cantidad de pruebas de valor
en el antecedente de la regla.3. Error: es el estimador calculado como el
complemento de la proporción de éxito. asociado a cada
regla.4. Usada: indica la cantidad de veces que se
utilizó la regla durante la
evaluación.- Una matriz de confusión que indica para cada
clase, la cantidad de casos clasificados erróneamente y
la cantidad de casos de la misma clasificados como
pertenecientes a otra clase. - Errores: indica la cantidad de errores cometidos
durante la evaluación, y la proporción de error
calculada como dicha cantidad sobre la cantidad de veces en
que se utilizó la regla.b es la cantidad de casos que serian clasificados
erróneamente si dicha regla se omitiese.c es la cantidad de casos que serian clasificados
correctamente si dicha regla se omitiese por las reglas
siguientes.a es el beneficio neto de omitir la regla, calculado
como b-c. - La ventaja tiene el siguiente formato a(b/c),
donde - Matriz de confusión para los datos de
entrenamiento. - Evaluación de los datos de prueba
- Matriz de confusión para los datos de
prueba.
A continuación se muestra un ejemplo del
archivo en cuestión.
- Módulo de
evaluación
Cuando el usuario desea evaluar el rendimiento del
modelo generado con el ID3, deberá entrar en este
módulo para elegir la tabla sobre la que desea
trabajar y la fecha y hora en que se generó el modelo
que está tratando de evaluar. Una vez que el usuario
ha determinado todos estos datos, se realiza la
evaluación del rendimiento del modelo escogido,
aparecerá por pantalla la matriz de evaluación
del rendimiento del modelo escogido por el usuario. La matriz
de evaluación muestra, para cada clase, la cantidad de
casos que fueron evaluados correctamente y la cantidad de
casos que fueron evaluados incorrectamente. En el caso del
C4.5 la evaluación se hace directamente con los datos
de prueba. La figura 15 muestra el diagrama modular del
módulo evaluación.
Figura 15
Diagrama modular del módulo
evaluación
- Módulo opciones
Este módulo contiene aquellos
sub-módulos que realizan todas las operaciones
comunes al ID3 y al C4.5, como seleccionar la tabla de
datos sobre la cual se aplicará el proceso de
minería, ver la tabla activa, cambiar la tabla de
datos y entrar al módulo de usuarios donde se
podrán incluir o eliminar los usuarios del sistema.
La figura 16, muestra el diagrama modular de este
módulo.Figura 16
Diagrama modular del módulo
opciones.Seleccionar tabla: esta opción, permite
seleccionar la tabla de trabajo sobre la cual que se
aplicará el ID3 o el C4.5 según la
elección del usuario.Cambiar tabla: permite que el usuario seleccione
otra tabla sobre la cual trabajar.Ver tabla activa: lista todo los datos de la tabla
sobre la cual se está trabajando por
pantalla.Usuarios: maneja toda la información sobre
usuarios que pueden acceder al sistema SIMIDACE Tree.
Está constituido por usuario (nombre del usuario),
clave (código de acceso del usuario), y tipo
(nivel de acceso al sistema, ya sea administrador o
usuario). La figura 18, muestra el diagrama de flujo del
módulo opciones.El sub-modulo usuario queda estructurado de la
siguiente manera (ver figura 17).Figura 17
Estructura del sub-módulo
usuarios
Modulo Ayuda
Este módulo está formado por dos
sub-módulos:
SIMIDACE Tree: se encarga de mostrar el manual de
usuario con una interfaz sencilla y amplia información
en el manejo del mismo.
Acerca de…: muestra una pantalla donde se visualiza
la versión del sistema y el autor del trabajo de
grado.
- Análisis de los resultados
obtenidos
Se realizaron múltiples pruebas tanto con el
sistema ID3 como con el C4.5. A continuación se presentan
los dominios de datos sobre los cuales se
trabajó.
Para cada dominio, se
presentan dos conjuntos de resultados para cada uno de los
sistemas: uno utilizando la ganancia como medida de la ganancia
de información en cada iteración del sistema, y
otra utilizando la proporción de ganancia con el mismo
propósito. Entonces, para cada combinación dominio
– sistema – medidor de ganancia, se presentan el árbol y
las reglas de decisión obtenidas.
Descripción de los dominios
A continuación se presentan los dominios sobre
los cuales se realizaron las pruebas. Para cada dominio se
presenta:
- Una breve descripción
- Los atributos con sus correspondientes valores
posibles - Las clases con sus valores
- La cantidad de instancias y la distribución de
clases del dominio
En todos los casos, se dividieron los datos
preclasificados en dos subconjuntos: uno de entrenamiento y uno
de prueba.
AEB (Municipio Andrés Eloy
Blanco).
Descripción: para todos los dominios los ejemplos
planteados fueron provistos por el Instituto Nacional de
Estadísticas, utilizando la base de datos del censo de
población y vivienda 2001 del estado Lara. Los campos de
los ejemplos provistos son los parámetros que
se tienen en cuenta al analizar la condición de pobreza de
un hogar según el método NBI.
Pobre
No pobre
Totales
En el conjunto de
entrenamiento2958
2389
5347
En el conjunto de prueba
3467
0
3467
Totales
6425
2389
8814
- Cantidad de instancias y distribución de
las clases
Resultados obtenidos con el ID3
A continuación se presentan los resultados
obtenidos con el ID3 en cada uno de los dominios analizados.
Cada uno de los resultados consiste en un árbol de
decisión, un conjunto de reglas de decisión y
una matriz de resultados obtenida al aplicar los modelos
sobre los datos de prueba. Dicha matriz informa por cada
clase, la cantidad de instancias del conjunto de prueba que
fueron clasificadas correctamente, la cantidad que fueron
clasificadas erróneamente y la probabilidad de que una
nueva instancia sea clasificada correctamente.
AEB (Municipio Andrés Eloy
Blanco).
ID3 utilizando la ganancia como criterio de
decisión
Reglas de decisión
Evaluación de los resultados
ID3 utilizando la proporción de ganancia como
criterio de decisión
Reglas de decisión
Evaluación de los resultados
Conclusiones
En este caso, tanto el árbol como las
reglas obtenidas mediante el ID3 son idénticos
para la ganancia y para la proporción de ganancia.
Al analizar la tabla de evaluación de los
resultados, se observa que el clasificador obtenido es
excelente para clasificar ambas clases, "No pobre"y
"Pobre, es decir, que un nuevo caso de ambas clases,
tendrá una probabilidad de 1 de ser clasificado
correctamente.Iribarren (Municipio
Iribarren).Pobre
No pobre
Totales
En el conjunto de
entrenamiento46920
73080
120000
En el conjunto de prueba
32444
50532
82976
Totales
79364
123612
202976
Iribarren (Municipio
Iribarren).ID3 utilizando la ganancia como criterio de
decisiónReglas de decisión
Evaluación de los resultados
Iribarren (Municipio
Iribarren).ID3 utilizando la proporción de ganancia
como criterio de decisiónReglas de decisión
Evaluación de los resultados
Conclusiones
Al igual que en el caso del municipio
Andrés Eloy Blanco, tanto el árbol como las
reglas obtenidas mediante el ID3 son idénticos
para la ganancia y para la proporción de ganancia.
Al analizar la tabla de evaluación de los
resultados, se observa que el clasificador obtenido es
excelente para clasificar ambas clases, "No pobre"y
"Pobre, es decir, que un nuevo caso de ambas clases,
tendrá una probabilidad de 1 de ser clasificado
correctamente. Estos resultados se repiten para el resto
de los municipios, esto se debe a que todos los atributos
tienen solo dos valores posibles iguales en todas las
tablas.Resultados obtenidos con el
C4.5A continuación, se presentan los
resultados obtenidos con el sistema C4.5. Se realizaron
pruebas sobre los mismos dominios que para el sistema
ID3. Al igual que en el caso anterior, se presentan los
resultados para el sistema utilizando la ganancia y la
proporción de ganancia para medir la ganancia de
información en cada paso del algoritmo.AEB (Municipio Andrés Eloy
Blanco).C4.5 utilizando la ganancia como criterio de
decisiónEvaluación de los resultados del
árbol de decisiónEvaluación con datos de prueba (3467
items):- Cantidad de instancias y distribución de
las clasesClasificación general en los datos de
entrenamiento: -
Reglas de decisión
Evaluación de los resultados de las
reglas de decisiónEvaluación sobre los datos de
entrenamiento: Evaluación sobre los datos de
prueba:Clasificación general en los datos de
prueba:Utilizando la proporción de ganancia como
criterio de decisiónEvaluación de los resultados del
árbol de decisiónEvaluación con datos de prueba (3467
items):Clasificación general en los datos de
entrenamiento:-
Reglas de decisión
Evaluación de los resultados de las
reglas de decisiónEvaluación sobre los datos de
entrenamiento: -
Evaluación sobre los datos de
prueba:Clasificación general en los datos de
prueba:Iribarren (Municipio
Iribarren).C4.5 utilizando la ganancia como criterio de
decisiónEvaluación de los resultados del
árbol de decisiónEvaluación con datos de prueba (82976
items): -
Clasificación general en los datos de
entrenamiento: Reglas de decisión
Evaluación de los resultados de las
reglas de decisiónEvaluación sobre los datos de
entrenamiento:Evaluación sobre los datos de
prueba:Clasificación general en los datos de
prueba:Iribarren (Municipio
Iribarren).C4.5 utilizando la proporción de ganancia
como criterio de decisiónEvaluación de los resultados del
árbol de decisiónEvaluación con datos de prueba (82976
items):Clasificación general en los datos de
entrenamiento:
Reglas de decisión
Evaluación de los resultados de las reglas de
decisión
Evaluación sobre los datos de
entrenamiento:
Clasificación general en los datos de
prueba:
Conclusiones
En este caso, tanto los árboles como las reglas
obtenidas son iguales si se utiliza la ganancia o la
proporción de ganancia como criterio de decisión.
Los árboles son pequeños y poco frondosos, lo cual
facilita su comprensión. Además, no clasifican
ningún ejemplo erróneamente en los datos de
prueba.
Las reglas de decisión generadas, también
son pocas, lo cual hace que su lectura sea
más comprensible. Por lo tanto, se puede decir que tanto
los árboles como las reglas obtenidas en este dominio
constituyen un buen clasificador.
CAPÍTULO V
CONCLUSIONES Y RECOMENDACIONES
Conclusiones
A partir del estudio realizado sobre la Minería
de Datos y el Aprendizaje Automático en general, y de los
métodos de la familia TDIDT en
particular, se puede concluir que hay varios puntos claves a
tener en cuenta al realizar Minería de Datos con
algoritmos inteligentes. Entre ellos, se pueden
destacar:
- El Aprendizaje de Conceptos puede verse como una
búsqueda en un gran espacio de hipótesis
predefinidas. En el caso de la familia
TDIDT este espacio de hipótesis, está constituido
por todos los árboles de decisión posibles para
los datos que se analizaron. - Los datos sobre los que se construye el problema son
representativos del dominio sobre el que se aplicó el
modelo obtenido. - Finalmente, cabe destacar que el ID3 y el C4.5
utilizan todos los datos de entrenamiento en cada paso para
elegir el "mejor" atributo; esta elección se realiza
estadísticamente. Esto es favorable frente a otros
métodos de aprendizaje automático que analizan
los datos de entrada en forma incremental. El hecho de tener en
cuenta todos los datos disponibles en cada paso, resulta en una
búsqueda mucho menos sensible a errores en casos
individuales. Con los resultados obtenidos se cumplieron todos
los objetivos propuestos de analizar la base de datos de censo
de población del estado Lara, utilizando técnicas
de minería de datos específicamente
árboles de decisión
- Recomendaciones
Como línea futura de trabajo, se propone analizar
los datos de entrada con los cuatro métodos (ID3
utilizando ganancia, ID3 utilizando proporción de
ganancia, C4.5 utilizando ganancia y C4.5 utilizando
proporción de ganancia) y elegir para el nuevo dominio, el
modelo que presenta la menor proporción de error. Teniendo
en cuenta que si con el primer método la proporción
de error es inaceptable, probablemente también sea
inaceptable para el resto de los métodos. En cuyo caso,
convendría analizar el problema con otros métodos
de aprendizaje que enfoquen la resolución del mismo desde
otro ángulo.
REFERENCIAS BIBLIOGRÁFICAS
Universidad Fermín Toro (2000). Normas para la
presentación del trabajo de grado. Cabudare Estado
Lara
García, (2004). Sistema basado en
minería de datos para la segmentación de clientes y
proveedores en
el negocio de importación. Universidad Fermín
Toro.
Galvis, (2002). Sistema Inteligente basado en
minería de datos para la clasificación de neonatos
según su crecimiento intrauterino, edad de
gestación y peso al nacer. Universidad Fermín
Toro
WINSTON, PATRICK (1994). Inteligencia Artificial.
3era Edición
Estados
Unidos. Editorial Addison Wesley Iberoamericana
S.A
KEVIN KNIGHT. Inteligencia Artificial.
2da Edición Editorial Mc Graw
Hill.
WITTEN Y FRANK (2000) Data Mining: Practical
Machine
Learning Tools and Techniques with Java
Implementations. Ediciones Morgan
Kaufmann, San Diego, EE.UU.
Referencias de fuentes
electrónicas
http://www.uv.mx/aguerra/teaching/ml-04/clase07.pdf
http://www.daedalus.es/AreasMD-E.php
http://es.wikipedia.org/wiki/ID3
http://es.wikipedia.org/wiki/php
http://es.wikipedia.org/wiki/mysql
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf
http://www.sia.eui.upm.es/integr/jalcala/ia/InteligenciaArtificial.pdf
ia.inteligenciartificial[arroba]yahoo.es
Página anterior | Volver al principio del trabajo | Página siguiente |