Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Recuperación de Datos (página 2)




Enviado por julio vargas



Partes: 1, 2

Los algoritmos de clustering aplicados a la
organización y recuperación de
información, agrupan muestras de entrada en una serie
de grupos y en contraste con la indización manual, en
la automática es un algoritmo el que toma la
posición del indizador y se aplica repetidamente a
cada documento. Estudian la forma en que se agrupan los
términos de indización asignados a los
documentos o los propios documentos para revelar la
relación que existe entre documentos de materias
similares y crear grupos con características comunes.
Las técnicas de análisis de clusters y los
sistemas de información tienen un mismo objetivo:
organizar temáticamente la información
almacenada. Basados en el cálculo de la similitud
entre pares de objetos, los métodos,
básicamente pueden ser de dos tipos:

  • Métodos heurísticos: Son aquellos
    que dividen un conjunto de documentos en subconjuntos
    entre los que no existen relaciones jerárquicas,
    por medio de parámetros que permiten controlar el
    proceso de creación de los grupos. Entre dichos
    parámetros se encuentran: el número total
    de clusters a formar y su tamaño máximo y
    mínimo.

  • Métodos jerárquicos: Exigen como
    punto de partida el cálculo de la similitud entre
    todos los pares de documentos del sistema de
    información. La construcción de la
    jerarquía se realiza a partir de: una
    técnica divisiva, donde los cluster se crean de
    arriba hacia abajo, grupos con características
    comunes y luego grupos más específicos y
    una técnica acumulativa, por medio de la cual se
    construye, a partir de grupos pequeños, grupos
    más grandes, de abajo hacia arriba.

Las metodologías empleadas en la
automatización de la indización desde finales
de los años cincuenta hasta la actualidad han variado.
En los primeros momentos, se utilizaba casi exclusivamente la
estadística para obtener los términos de
indización representativos de los documentos, pero a
partir de los años 80, se incorporaron en las
propuestas para la automatización de la
indización técnicas de procesamiento del
lenguaje natural como herramientas para conseguir las
raíces de las palabras, etiquetadores
morfológicos, así como analizadores
sintácticos, entre otras.

Pero lo habitual es que las propuestas o prototipos
presentados por los investigadores incluyan una
combinación de ambas aproximaciones, es decir,
cálculo de la frecuencia y herramientas, más o
menos complejas, para el procesamiento del lenguaje
natural.

4. Técnicas de retroalimentación
por relevancia

Uno de los principales problemas de los sistemas
interactivos durante años fue entender la
interacción como un proceso inherente al sistema de
recuperación de la información. Una vez
establecida la interacción entre el hombre y la
máquina, no se especifica de forma clara qué
elementos y procesos permiten la interacción entre los
dos extremos del sistema de recuperación de
información.

Amanda Spink, propone que el principal
responsable de la interacción, tanto en el modelo
tradicional como en el interactivo, es la
retroalimentación como aspecto no siempre ligado al
concepto de relevancia, sino a la generalidad de elementos
que permiten la interacción entre el sistema y el
usuario. Sobre esta base, Spink identificó,
en un estudio aplicado a una muestra de 40 usuarios reales,
con necesidades informativas reales y 4 intermediarios para
responder a sus consultas, los siguientes tipos de
retroalimentación:18

  • Retroalimentación por relevancia de
    contenido.

  • Retroalimentación por relevancia de
    términos.

  • Retroalimentación por magnitud de
    respuestas.

  • Retroalimentación por revisión de
    consultas anteriores.

  • Retroalimentación por revisión de
    términos.

Una vez identificados y descritos los elementos
sobre los que recae el peso de la retroalimentación,
la autora de la investigación se basó en el
modelo de recuperación interactiva de la
información propuesto por Saracevic, y
contempló sus distintos niveles de interacción.
En síntesis, "un proceso de búsqueda
interactivo puede estar formado por una serie de estrategias
de búsqueda, construidas por una o más
iteraciones y uno o más ciclos de
retroalimentación interactiva", 18 de los tipos
descritos anteriormente.

Los inconvenientes de estos modelos no son pocos,
debido a que:

  • Se limitan a realizar una aproximación
    prácticamente teórica a las necesidades de
    información de los usuarios desde diferentes
    ángulos, carentes de todo tipo de desarrollo
    práctico en los entornos del usuario.

  • Se centran excesivamente en el usuario sin
    considerar que las conclusiones a las que llega
    corresponden a cada individuo concreto objeto de estudio,
    difícilmente extrapolables a un grupo más
    amplio de individuos.

5. Técnicas de stremming

  • Definición

El streaming involucra el envío
de información entre un servidor y un cliente a
través de una red como Internet. El servidor rompe la
información en paquetes que se envían a
través de la red. Los paquetes son reensamblados por
el cliente, que reproduce la información recibida al
mismo tiempo.

El streaming se diferencia de una
simple transferencia de ficheros en que el cliente reproduce
la información mientras la está recibiendo en
vez de esperar a recibirla completa antes de reproducirla. De
echo, un cliente de streaming podría no descargar el
vídeo/audio, simplemente reproducir la
información de cada uno de los paquetes e ir
descartándolos.

  • Características

  • 1. Se utiliza para sistemas multimedia
    distribuídos

  • 2. Se utilizan para transmitir
    información multimedia de tipo continuo

  • 3.  Fraccionan la información para
    transmitirla

  • 4. Envío de la información se
    realiza de forma temporizada

  • 5. La reproducción puede comenzar
    instantes después del comienzo de la
    transmisión

  • 6.  No es necesario que el cliente almacene
    toda la información que recibe

6. Técnicas
lingüísticas

Los tesauros permiten estructurar y clasificar
información, presentarla de acuerdo con modelos de
datos comunes (plantillas de indexación) y acceder a
los recursos mediante la navegación por la estructura
del tesauro. Esto permite no sólo facilitar la
publicación, sino también la
recuperación de recursos. Los tesauros, además,
pueden ser multilingües y esto permite paliar en alguna
medida el problema de acceder a documentos de idiomas
diferentes.

Sin embargo, el problema fundamental de utilizar
tesauros es el coste que tiene asociado su
construcción y mantenimiento, así como la
asignación de los términos adecuados de
clasificación a los documentos. Además, por
tratarse de vocabularios controlados en el que cada uno de
los términos (descriptores) utilizados sólo
tiene un significado, el dominio de aplicación tiene
que ser suficientemente específico.

Una nueva colección en un nuevo dominio
requiere la construcción de un nuevo
tesauro.

Nota: Entendiéndose tesauro como al
listado de palabras o de términos que representan o
definen un concepto

Recomendaciones

Recomendado utilizar la técnica más
utilizada o la que de mejores resultados, sin obviar algo
importante su conocimiento es lo que mas cuenta
lógicamente; la mayoría de estás
técnicas son hechas o se utilizan para diferentes
búsquedas por que no es lo mismo buscar un documento
multimedia que un archivo de texto.

Conclusión

La información para métodos o
técnicas de búsqueda de datos como eje central
de esta investigación y para cerrar con este
pequeño pero valioso resumen.

La pérdida de información es muy
común hoy en día pero los métodos de
búsqueda son cada día más sofisticados y
modernos y es por ello que se ha mejorado en la
informática aplicada.

Bibliografía


http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html


http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html

http://recuperacionyaccesoinformacion.iespana.es/

http://www.mcmarcos.com/pdf/2004_browsing-modd.pdf

http://www.scimago.es/publications/jotri-03b.pdf


http://biblioteca.universia.net/html_bura/ficha/params/id/48320471.html


http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm


ftp://jano.ucauca.edu.co/cursos/JITT01/Material_SM/3diapos.PDF

 

 

Autor:

Julio Vargas Sequeira

zetars[arroba]gmail.com

Universidad de Costa Rica

Informàtica Empresarial

Docente: Luis Serrano F.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter