- El problema
- Marco
teórico - Glosario de
términos básicos - Marco
metodológico - Análisis
de resultados - Conclusiones
y recomendaciones - Referencias
bibliográficas
INTRODUCCIÓN
En muchas áreas del saber, el
conocimiento se ha venido obteniendo por el clásico
método
hipotético-deductivo, en él cual es fundamental el
paso inductivo inicial: a partir de un conjunto de observaciones
y de unos conocimientos previos, la intuición del
investigador le conduce a formular la hipótesis. Esta "intuición" resulta
inoperante cuando no se trata de observaciones aisladas y
casuales, sino de millones de datos almacenados
en soporte informático. En el fondo de todas las investigaciones
sobre inducción en bases de datos
subyace la idea de automatizar ese paso inductivo.
Las técnicas
de análisis estadístico, desarrolladas
hace tiempo,
permiten obtener ciertas informaciones útiles, pero no
inducen relaciones cualitativas generales, para esto se requieren
técnicas de análisis inteligente que todavía
no han sido perfectamente establecidas. Por ello, se incrementa
de forma continua la diferencia existente entre la cantidad de
datos disponibles y el conocimiento
extraído de los mismos. Pero cada vez más
investigaciones dentro de la inteligencia
artificial están enfocadas a la inducción de
conocimiento en bases de datos. Consecuencia de esta creciente
necesidad ha aparecido un nuevo campo de interés:
la minería de
datos, que incluye los nuevos métodos
matemáticos y técnicas para análisis
inteligente de datos.
El almacenamiento de datos se ha convertido en una
tarea rutinaria de los sistemas de
información de las organizaciones.
Esto es aun más evidente en las empresas de
telefonía, el marketing
directo y en las instituciones públicas. Los datos
almacenados son un tesoro para las organizaciones, es donde se
guardan las interacciones pasadas con los clientes, la
contabilidad
de sus procesos
internos, representan la memoria
de la
organización. Pero con tener memoria no es
suficiente, hay que pasar a la acción inteligente sobre los datos para
extraer la información que almacenan. Este es el
objetivo de
la minería de datos.
En este contexto, el propósito de este proyecto es
estudiar de que manera la familia de
Top Down Induction Trees (árboles
inductivos de arriba hacia abajo), conocida como TDIDT las cuales
representan sus siglas en ingles, que aborda el problema de
inducir árboles de decisión, puede utilizarse para
descubrir automáticamente reglas de producción a partir de la
información disponible en la base de datos
de censo de población del estado
Lara.
El aprendizaje
inductivo es un caso particular entre las técnicas de
aprendizaje a partir de ejemplos, siendo su cometido el inducir
reglas a partir de los datos históricos disponibles para
lo cual procederá a clasificar en la clase
correspondiente diferentes objetos, basándose en el
valor de las
características o atributos que los definen.
Un árbol de decisión es importante no
porque resume lo que se sabe, sino porque se espera que
clasifique correctamente nuevos casos que se puedan
tener.
Así, cuando se construyen modelos de
clasificación se deben tener datos de entrenamiento para
saber cómo funciona realmente. Por ello, este estudio
tiene como objetivo diseñar un sistema que
permita la aplicación de minería de datos
utilizando árboles de decisión en la base de datos
de censo de población del Estado Lara, siendo estructurado
en capítulos, los cuales se describen
seguidamente:
En el Capítulo I, se presenta el problema
conjuntamente con el planteamiento del
problema y se formulan los objetivos de
la investigación, así como la
justificación e importancia, alcances y limitaciones del
mismo.
El Capítulo II, en este capítulo se
presenta la fundamentación teórica que sirve de
base a este trabajo de
investigación, incluyendo los diferentes términos
básicos que permiten al lector entender el significado de
las palabras planteadas.
En el Capítulo III, se establece el marco
metodológico utilizado para alcanzar los objetivos
propuestos y se hace un análisis de la factibilidad
técnica, económica y operativa del
proyecto.
El Capítulo IV, presenta todo lo referente a la
elaboración del sistema, estructurado en una serie de
módulos para el manejo y procesamiento de la
información.
Y en el Capítulo V, se hace referencia a
conclusiones, recomendaciones y referencias
bibliográficas.
CAPÍTULO I
EL
PROBLEMA
Planteamiento del
Problema
En Venezuela se
realizan diversas investigaciones estadísticas en las áreas
científicas, sociales y económicas, pero ninguna
abarca la totalidad del territorio, sus habitantes y viviendas,
como el censo. La actividad pública del país y
ahora en buena parte la privada depende de los aspectos
cuantitativos de estos datos.
Bolívar
(1995), expone que la tradición censal en Venezuela
comienza en 1873 con el levantamiento del Primer Censo Oficial de
la República; decretado por el presidente Antonio
Guzmán Blanco y ejecutado por la recién creada
Dirección General de Estadísticas y
Censos Nacionales, adscrita al Ministerio de Fomento.
Este censo constituyó el primer inventario
oficial de la población del país, considerando que
los recuentos efectuados durante la Colonia solo fueron
estimaciones aproximadas del tamaño poblacional de
Venezuela. Sus resultados fueron publicados en la serie de
"Apuntes Estadísticos" del Ministerio de Fomento, durante
los años 1875-77.
Posteriormente, se llevaron a cabo los censos de 1881 y
1891, finalizando así el siglo XIX con empadronamiento de
periodicidad decenal.
En la década de los años 20,
después de 29 años sin censos, se levantan dos con
un intervalo de seis años: 1920 y 1926, y en 1936 se
levanta el siguiente censo. En 1938, mediante la Ley de
Estadísticas y Censos Nacionales dictada en ese año
se reduce la periodicidad de los censos a cinco años y se
levanta en 1941 el séptimo censo. El 12 de julio de 1944
se promulga una nueva ley de Estadísticas y Censos
Nacionales, actualmente vigente, en la cual se establece de nuevo
el levantamiento del censo de población cada diez
años a partir de 1950.
Con el censo de 1950 Venezuela queda incorporada al
programa
Censal de las América, formulado por la Organización de las Naciones Unidas para
promover y coordinar la realización de censos de
población y vivienda en el continente. El fin primordial
de este programa es propiciar la obtención de resultados
uniformes que permitan la adecuada comparabilidad entre los
diferentes países. Enmarcados dentro de este programa, se
levantaron los censos de 1950, 1961, 1971, 1990 y 2001, que
también se realizaron en Argentina, Brasil, Chile,
Ecuador,
Estados Unidos
y México.
Los primeros censos oficiales del país se
realizaron con el fin de determinar las obligaciones
tributarias y militares de los individuos, el potencial de
fuerza de
trabajo del país y los cambios ocurridos en la
condición jurídica de las personas. En estos censos
el objetivo primordial era el recuento de la población y
sus características demográficas
básicas.
A partir de 1936 los censos del país
evolucionaron en sus objetivos, debido a la consideración
de fines más diversos propuestos por las organizaciones
públicas y privadas, nacionales e internacionales, y la
sociedad en
general. En lo que respecta a la investigación de las
características de las viviendas, esta se inicio en forma
sistemática con el censo de 1941. La información
recabada en los censos de 1981 y 1990, ha permitido el estudio de
la situación habitacional del país, combinando la
información de las viviendas y de los hogares.
Página siguiente |