Recuperación de Datos (página 2)

Partes: 1, 2

Los algoritmos de clustering aplicados a la
organización y recuperación de
información, agrupan muestras de entrada en una serie
de grupos y en contraste con la indización manual, en
la automática es un algoritmo el que toma la
posición del indizador y se aplica repetidamente a
cada documento. Estudian la forma en que se agrupan los
términos de indización asignados a los
documentos o los propios documentos para revelar la
relación que existe entre documentos de materias
similares y crear grupos con características comunes.
Las técnicas de análisis de clusters y los
sistemas de información tienen un mismo objetivo:
organizar temáticamente la información
almacenada. Basados en el cálculo de la similitud
entre pares de objetos, los métodos,
básicamente pueden ser de dos tipos:

Métodos heurísticos: Son aquellos
que dividen un conjunto de documentos en subconjuntos
entre los que no existen relaciones jerárquicas,
por medio de parámetros que permiten controlar el
proceso de creación de los grupos. Entre dichos
parámetros se encuentran: el número total
de clusters a formar y su tamaño máximo y
mínimo.
Métodos jerárquicos: Exigen como
punto de partida el cálculo de la similitud entre
todos los pares de documentos del sistema de
información. La construcción de la
jerarquía se realiza a partir de: una
técnica divisiva, donde los cluster se crean de
arriba hacia abajo, grupos con características
comunes y luego grupos más específicos y
una técnica acumulativa, por medio de la cual se
construye, a partir de grupos pequeños, grupos
más grandes, de abajo hacia arriba.

Las metodologías empleadas en la
automatización de la indización desde finales
de los años cincuenta hasta la actualidad han variado.
En los primeros momentos, se utilizaba casi exclusivamente la
estadística para obtener los términos de
indización representativos de los documentos, pero a
partir de los años 80, se incorporaron en las
propuestas para la automatización de la
indización técnicas de procesamiento del
lenguaje natural como herramientas para conseguir las
raíces de las palabras, etiquetadores
morfológicos, así como analizadores
sintácticos, entre otras.

Pero lo habitual es que las propuestas o prototipos
presentados por los investigadores incluyan una
combinación de ambas aproximaciones, es decir,
cálculo de la frecuencia y herramientas, más o
menos complejas, para el procesamiento del lenguaje
natural.

4. Técnicas de retroalimentación
por relevancia

Uno de los principales problemas de los sistemas
interactivos durante años fue entender la
interacción como un proceso inherente al sistema de
recuperación de la información. Una vez
establecida la interacción entre el hombre y la
máquina, no se especifica de forma clara qué
elementos y procesos permiten la interacción entre los
dos extremos del sistema de recuperación de
información.

Amanda Spink, propone que el principal
responsable de la interacción, tanto en el modelo
tradicional como en el interactivo, es la
retroalimentación como aspecto no siempre ligado al
concepto de relevancia, sino a la generalidad de elementos
que permiten la interacción entre el sistema y el
usuario. Sobre esta base, Spink identificó,
en un estudio aplicado a una muestra de 40 usuarios reales,
con necesidades informativas reales y 4 intermediarios para
responder a sus consultas, los siguientes tipos de
retroalimentación:18

Retroalimentación por relevancia de
contenido.
Retroalimentación por relevancia de
términos.
Retroalimentación por magnitud de
respuestas.
Retroalimentación por revisión de
consultas anteriores.
Retroalimentación por revisión de
términos.

Una vez identificados y descritos los elementos
sobre los que recae el peso de la retroalimentación,
la autora de la investigación se basó en el
modelo de recuperación interactiva de la
información propuesto por Saracevic, y
contempló sus distintos niveles de interacción.
En síntesis, "un proceso de búsqueda
interactivo puede estar formado por una serie de estrategias
de búsqueda, construidas por una o más
iteraciones y uno o más ciclos de
retroalimentación interactiva", 18 de los tipos
descritos anteriormente.

Los inconvenientes de estos modelos no son pocos,
debido a que:

Se limitan a realizar una aproximación
prácticamente teórica a las necesidades de
información de los usuarios desde diferentes
ángulos, carentes de todo tipo de desarrollo
práctico en los entornos del usuario.
Se centran excesivamente en el usuario sin
considerar que las conclusiones a las que llega
corresponden a cada individuo concreto objeto de estudio,
difícilmente extrapolables a un grupo más
amplio de individuos.

5. Técnicas de stremming

Definición

El streaming involucra el envío
de información entre un servidor y un cliente a
través de una red como Internet. El servidor rompe la
información en paquetes que se envían a
través de la red. Los paquetes son reensamblados por
el cliente, que reproduce la información recibida al
mismo tiempo.

El streaming se diferencia de una
simple transferencia de ficheros en que el cliente reproduce
la información mientras la está recibiendo en
vez de esperar a recibirla completa antes de reproducirla. De
echo, un cliente de streaming podría no descargar el
vídeo/audio, simplemente reproducir la
información de cada uno de los paquetes e ir
descartándolos.

Características

1. Se utiliza para sistemas multimedia
distribuídos
2. Se utilizan para transmitir
información multimedia de tipo continuo
3. Fraccionan la información para
transmitirla
4. Envío de la información se
realiza de forma temporizada
5. La reproducción puede comenzar
instantes después del comienzo de la
transmisión
6. No es necesario que el cliente almacene
toda la información que recibe

6. Técnicas
lingüísticas

Los tesauros permiten estructurar y clasificar
información, presentarla de acuerdo con modelos de
datos comunes (plantillas de indexación) y acceder a
los recursos mediante la navegación por la estructura
del tesauro. Esto permite no sólo facilitar la
publicación, sino también la
recuperación de recursos. Los tesauros, además,
pueden ser multilingües y esto permite paliar en alguna
medida el problema de acceder a documentos de idiomas
diferentes.

Sin embargo, el problema fundamental de utilizar
tesauros es el coste que tiene asociado su
construcción y mantenimiento, así como la
asignación de los términos adecuados de
clasificación a los documentos. Además, por
tratarse de vocabularios controlados en el que cada uno de
los términos (descriptores) utilizados sólo
tiene un significado, el dominio de aplicación tiene
que ser suficientemente específico.

Una nueva colección en un nuevo dominio
requiere la construcción de un nuevo
tesauro.

Nota: Entendiéndose tesauro como al
listado de palabras o de términos que representan o
definen un concepto

Recomendaciones

Recomendado utilizar la técnica más
utilizada o la que de mejores resultados, sin obviar algo
importante su conocimiento es lo que mas cuenta
lógicamente; la mayoría de estás
técnicas son hechas o se utilizan para diferentes
búsquedas por que no es lo mismo buscar un documento
multimedia que un archivo de texto.

Conclusión

La información para métodos o
técnicas de búsqueda de datos como eje central
de esta investigación y para cerrar con este
pequeño pero valioso resumen.

La pérdida de información es muy
común hoy en día pero los métodos de
búsqueda son cada día más sofisticados y
modernos y es por ello que se ha mejorado en la
informática aplicada.