El tratamiento de los
datos para la toma de decisiones en las actividades de
negocio
Desde un punto de vista más pragmático y
asociándolo directamente a las Actividades de Negocios, la
Minería de Datos es el conjunto de metodologías,
aplicaciones y tecnologías que permiten reunir, depurar y
transformar datos de los sistemas transaccionales e
información no estructurada (interna y externa a la
compañía) en información estructurada, para
su explotación directa o para su análisis y
conversión en conocimiento y así dar soporte a la
toma de decisiones sobre el negocio. Ahora bien, Piatesky-Shapiro
(1991) destacan que desde un punto de vista más
teórico, la Minería de Datos se define como el
proceso completo de extracción de información, que
se encarga además de la preparación de los datos y
de la interpretación de los resultados obtenidos, a
través de grandes cantidades de datos, posibilitando de
esta manera el encuentro de relaciones o patrones entre los datos
procesados.
Por su parte, Molina y García (2004) explican que
los datos tal cual se almacenan en las bases de datos no suelen
proporcionar beneficios directos; su valor real reside en la
información que podamos extraer de ellos, es decir,
información que nos ayude a tomar decisiones o a mejorar
la comprensión de los fenómenos que nos
rodean.
Ejemplos de ello pueden ser: contrastar que todo va
bien, analizar diferentes aspectos de la evolución de la
empresa, presentar información de forma más
intuitiva, comparar información en diferentes
períodos de tiempo, comparar resultados con previsiones,
identificar comportamientos y evoluciones excepcionales,
confirmar o descubrir tendencias e interrelaciones, entre otras
acciones.
Para tal efecto, se deben definir medidas cuantitativas
para los patrones obtenidos (precisión, utilidad y
beneficio obtenido), para establecer medidas de interés
que consideren la validez y simplicidad de los patrones obtenidos
mediante alguna de las técnicas de Minería de
Datos.
El objetivo final de todo esto es incorporar el
conocimiento obtenido en algún sistema real, tomar
decisiones a partir de los resultados alcanzados, o simplemente
registrar la información conseguida y
suministrársela a quien esté interesado.
Cabe resaltar que los efectos sobre la eficiencia de los
resultados en la Minería de Datos como apoyo a la toma de
decisiones está generando miles de opiniones desde
diferentes perspectivas, entre ellas se puede destacar: la
imposibilidad de encontrar conclusiones únicas referentes
a la evaluación de un resultado obtenido con esta
técnica. Sin embargo, la consecuencia de los datos
arrojados es interesante, por algo más que su
precisión.
En el siguiente artículo se realizó un
análisis de la aplicación del Data Mining en los
negocios, haciendo énfasis en cuatro indicadores
propuestos por los autores, Castañeda y Rodríguez
(2003), los cuales esbozan el atractivo que ofrece la
Minería de Datos en la implementación de las
actividades de negocio: tales como la bondad, aplicabilidad, la
relevancia y la novedad; indicadores que aportan una idea de las
implicaciones y utilidades que proporciona esta
práctica.
a) Indicadores de la bondad del resultado
Los índices de bondad de resultado tratan de
aportar una idea acerca del error que se comete al emplear un
modelo para realizar una tarea. Tal como manifiestan Padmanabhan
y Tuzhilin (1999), ésta es una medida de la fortaleza
estadística del resultado. Para este indicador se utilizan
las siguientes medidas: Precisión, Ratio de error,
Varianza y Matriz de confusión, siendo las dos
últimas derivaciones de las anteriores. La
precisión se utiliza cuando el resultado se presenta en
forma de clasificación o estimación, la cual se
mide a través del porcentaje de predicciones que son
correctas. Para efectos de la clasificación, se emplea el
porcentaje de casos bien clasificados y para la estimación
del porcentaje de registros, se emplea una estimación que
el decisor considere correcta. Para medir la precisión se
puede emplear el coeficiente de confianza, el cual no es
más que la probabilidad condicionada de un hecho con
respecto a otro.
La distancia es otra técnica de Minería de
Datos empleada cuando se disponen de variables continuas y
numéricas, mediante la raíz cuadrada de la suma al
cuadrado de las distancias en cada eje. Una medida que
complementa a la precisión es el Ratio de error, que mide
el porcentaje de casos en los que el resultado no coincide con la
realidad.
b) Indicadores de relevancia del resultado
Los indicadores más representativos en este grupo
son el Coeficiente de cobertura, el Coeficiente de apoyo y el
Coeficiente de significación. Estos indicadores tienen que
ver directamente con la importancia que tiene el resultado
arrojado por las técnicas de minería y miden la
aportación a la situación actual y la frecuencia de
utilidad del resultado, cuando la presentación de
éstos se hace en forma de reglas.
El Coeficiente de cobertura mide el porcentaje de
registros en los cuales se puede aplicar la regla. Por otro lado,
el Coeficiente de apoyo permite mostrar el porcentaje de
ocasiones en que globalmente aparece la relación descrita
por la regla, se recomienda representar el resultado en
porcentaje. Por último, el Coeficiente de
significación sirve para medir el grado de importancia de
la regla a través de la aportación que supone
respecto a la pura probabilidad.
c) Indicadores de novedad del resultado
Cuando la información es excesivamente abundante
y obvia, puede presentarse el problema al generar reglas. Para
ello, existe el Coeficiente de novedad, creado para indicar si
una regla es interesante o no en función del número
de reglas ya generadas, para un área de conocimiento
concreta. Su objetivo es ayudar a evitar las redundancias en su
obtención. Autores como Buchner et al. (1999), entre
otros, abogan por la inclusión del conocimiento previo del
negocio, e intuición que detentan las decisiones para de
esta manera: restringir el espacio de búsqueda, obtener
conocimiento más preciso y eliminar aquél que
resulte no interesante.
d) Indicadores de aplicabilidad del resultado
La dinámica de las organizaciones actuales
demanda cada vez más, tiempos de respuesta más
rápidos, por lo cual es necesario que tanto la
creación o generación de modelos como los
resultados del mismo, deben estar disponibles en el menor tiempo
posible. Para lograr esto, hay que buscar la simplicidad de los
modelos y de la forma de representar la salida o resultados del
análisis, para transformar el conocimiento obtenido y
poder aplicarlo al negocio; para lograr esto, se cuenta con el
Coeficiente de Simplicidad, la Tasa Interna de Retorno y el Valor
Actual Neto.
Ejemplo 4
La rentabilidad
económica de las empresas a través de los procesos
minería de datos, como herramienta inteligente
competitiva
Es innegable que organizaciones comerciales, analistas
de inversiones, entidades de crédito y demás
usuarios especializados, cada vez solicitan más
información sobre la rentabilidad de todas las actividades
de negocio de la organización. ¿Están
capacitados los solicitantes para procesar correctamente todo ese
recurso de datos, cada vez más voluminoso y
complejo?
Nos inclinamos a pensar que no, por la siguiente
razón: El volumen creciente de datos a que se enfrentan
los usuarios, especialmente aquellos especializados en
economía, finanzas y marketing, está haciendo que
la sobrecarga informativa convierta los datos en una masa en la
cual no es posible ver con claridad los ámbitos y
complejos procesos de la situación y perspectivas de la
empresa. Ante este panorama nos preguntamos ¿Qué
medidas pueden adoptarse? Cabe indicar que los avances
tecnológicos han conducido a un mundo complejo y
cambiante, pero contradictoriamente es una fuente de
soluciones.
Siguiendo en el mismo orden de ideas, se resalta que la
Minería de Datos o explotación de datos ha
revolucionado y potenciado las bases de datos tradicionales, pues
permite identificar mediante la aplicación
automática de algoritmos recursivos, las variables
más relevantes para una decisión concreta o los
subconjuntos de entidades (empresas, clientes, entre otros)
más homogéneos con arreglo a unas
características determinadas.
Otro importante hecho que describen Molina y
García (2004) es que con la implementación de
procesos de Minería de Datos, a través de la
aplicación de algunas técnicas estadísticas
avanzadas y nuevos métodos de extracción de
conocimiento en grandes base de datos, se pueden determinar las
características contables de las empresas más
rentables, al igual que el perfil de sus clientes. Se hace
imprescindible, por un lado, un análisis exploratorio
profundo de la base de datos y el empleo de métodos
robustos, que hagan que dichos componentes sean menos sensibles a
los amplios casos estadísticos. Por otro lado, es
aconsejable diseñar con base a opiniones de expertos, si
no hay información adecuada, o utilizar algún
sistema de aprendizaje, por ejemplo, la utilización de
redes neuronales, para el descubrimiento de patrones y extraer la
información de la base de datos disponible.
En fin, estos métodos y procedimientos se han
convertido en retos tecnológicos para procesar los datos y
convertirlos en conocimiento útil para la toma de
decisiones. Este camino se presenta como una opción para
las organizaciones que quieran ser competitivas,
valiéndose de la experiencia acumulada, la cual sin duda
alguna constituye el principal activo del que se dispone para la
creación de valor. De esta manera, una organización
que reflexiona, documenta y aprende, está en condiciones
de innovar y obtener ventajas competitivas.
NOTA: Los ejemplos 3 y 4 fueron extraídos de la
misma referencia bibliográfica
Referencia bibliográfica
http://www.scielo.org.ve/scielo.php?pid=S1012-15872007000100008&script=sci_arttext
Ejemplo 5
Zaragoza Ciudad del
Conocimiento Minería de Datos
Introducción
El Ayuntamiento de Zaragoza está participando en
un proyecto de investigación, conjuntamente con la
Universitat Pompeu Fabra de Barcelona, en el que se pretende
desarrollar una herramienta que utilice técnicas de
Visualización de la Información a los datos
recolectados mediante un sistema de Minería Web. La
Minería Web es el proceso de descubrir la
información o conocimiento potencialmente útil y
previamente desconocido a partir de datos web. Existen tres tipos
de minería web:
Minería de la estructura web: es el tipo de
minería que se encarga de analizar como están
estructurados los documentos y como están
enlazados.Minería del contenido web: es el tipo de
minería que se encarga de analizar el contenido que se
encuentra en cada una de las páginas que se encuentran
en un sitio web.Minería del uso web: es el tipo de
minería que interpreta el comportamiento de los
usuarios analizando los ficheros log del sitio.
Las técnicas de minería generan una serie
de valores o métricas que cuantifican la
información contenida en el sitio web en términos
de estructura, contenido y uso del mismo. Esa información
es muy útil para poder entender el comportamiento de los
usuarios de la web, su estructura, como están enlazados
sus contenidos, etc.
La gran mayoría de herramientas existentes hoy en
día son capaces de recopilar toda esta información
pero suelen representarla de una manera confusa, y difícil
de entender. En este proyecto se pretende utilizar
técnicas de Visualización de la Información
para crear un sistema visual e interactivo que permita la
fácil exploración de los datos, con el objetivo de
proporcionar un mayor conocimiento del sitio web. La
Visualización de la Información es la disciplina
que estudia el uso de representaciones interactivas de datos
abstractos para mejorar su entendimiento.
Sistema desarrollado
El sistema creado en el marco de este proyecto se
encarga de recolectar la información de Internet mediante
un robot que captura todas las páginas existentes en la
web de Zaragoza, siguiendo todos los enlaces de ésta y
obteniendo así su estructura; y mediante un analizador
semántico de los ficheros log para analizar el
comportamiento de los usuarios. Un fichero log es un fichero
existente en el servidor web que almacena cada una de las
peticiones que hacen los usuarios al servidor. Una
petición se genera cada vez que un usuario pincha en un
enlace, o escribe una dirección en el
navegador.
De este modo, el sistema generará
representaciones visuales basadas en la información
extraída del proceso de minería de datos web,
permitiendo un profundo análisis de esa información
y así entender mejor los patrones de comportamiento de los
ciudadanos dentro de la web. Ese análisis permitirá
una mejor toma de decisiones para poder ofrecer un mejor
servicio.
Los principales objetivos del sistema son:
Desarrollar una herramienta que permita analizar el
sitio web de ZaragozaCrear un sistema de Minería Web que extraiga
el mayor número de métricas o indicadores
relativos a la webAnalizar distintos tipos de visualizaciones que
permitan representar toda la información recolectada,
y la implementación de las que más se ajusten
al problemaCrear una interfaz de usuario interactiva que
permita explotar al máximo las capacidades visuales
del sistema, y así, permitir un mayor entendimiento de
los mismos
Primer prototipo
Actualmente se ha desarrollado un primer prototipo
funcional del sistema.
Esta captura de pantalla muestra una parte de la web de
Ayuntamiento de Zaragoza. Cada objeto de la imagen con forma
corresponde a una página de la web accesible des de
Internet, mientras que las líneas que los juntan
corresponden a enlaces entre ellas. Cada color y forma
está relacionado con valores extraídos de los
ficheros log, y son asignados mediante un menú por parte
del usuario del sistema. En la imagen mostrada anteriormente, se
pueden visualizar al mismo tiempo tres valores:
Número de visitas: el número de veces
que cada una de las páginas ha sido visualizada por un
usuario. En la imagen, cuanto más visitada ha sido una
página, mayor es su tamaño, y su color es
más azulado.Ranking en buscadores: la forma de cada
página está asociado al valor interno que le ha
asignado el motor de búsqueda Google. De este modo,
sabemos que la estrella tiene un ranking en Google muy alto,
y por lo tanto, esa página saldrá en las
posiciones más altas de Google cuando un usuario la
busque. Los hexágonos son páginas con menos
ranking, seguido de los triángulos.Número de enlaces salientes: en la imagen, se
puede apreciar que cada página tiene un color asignado
a su borde. Ese color corresponde al número de enlaces
que contiene esa web. Identificar fácilmente las
páginas con muchos enlaces es una tarea de alta
importancia, ya que estás páginas sirven de
?punto de entrada? al sitio web. Descubrir que una
página contiene muchos enlaces, y que además es
muy visitada implica deducir, que todos los usuarios que
vistan esta página podrán acceder a más
contenidos de forma sencilla, lo cual corrobora el buen
diseño de la web.
Otras métricas o valores han sido
extraídos de los ficheros log, que siempre pueden ser
visualizados por parte del usuario de la aplicación con el
atributo visual (color, forma o color del borde) que el
desee.
Referencia bibliográfica
http://www.zaragoza.es/ciudad/conocimiento/mineria.htm
Autor:
Miriam Cecilia Moreno
Luján
Semestre: VIII
ING. RICARDO BUSTAMANTE.
Página anterior | Volver al principio del trabajo | Página siguiente |