Recuperación de información en entornos Grid

Enviado por omarh

Resumen
Recuperación de la
información (information retrieval –
ir)
Grid computing
Recuperación de la
información en entornos Grid
Conclusiones
Bibliografía

Resumen

Las grandes cantidades de información, que se
crean y se manejan actualmente, han hecho que su almacenamiento y
recuperación se un problema que esta en constante investigación bajo el nombre de
Recuperación de Información (Information
Retrieval). El Grid Computing, tecnología que simula
un supercomputador a partir de muchos pequeños
ordenadores, en cuanto, sobre todo, a las capacidades de
almacenamiento y procesamiento.

El presente trabajo
pretende mostrar como la Recuperación de
Información se puede apoyar en el Grid Computing para
proveer de nuevas técnicas y
potencialidades para gestionar de manera óptima la
información.

Palabras Claves

Recuperación de Información, Grid
Computing, GridIR, Grace.

INTRODUCCIÓN
La aparición de la Internet a
producido cambios profundos en la actividad humana, a tal
punto que en la actualidad se denomina la era de la
información, por la importancia que tiene ésta
en el que hacer de las personas y organizaciones.
La creación de la
World Wide Web en 1989 por Tim Berners-Lee, junto con
otras tecnologías asociadas, trajo consigo la producción de información a gran
escala.
Ahora el problema se encuentra en el almacenamiento y
recuperación de la información, pues
ésta, a parte de lo basta que es, se encuentra en
formatos de muy diferentes características.
Una solución a esto fue la aparición
de los buscadores, que sin duda son de gran ayuda
para encontrar alguna información requerida por el
usuario, pero no es muy precisa, pues la búsqueda se
realiza, principalmente, en base a la localización de
palabras claves, y no diferencian, por ejemplo, entre
páginas personales, académicas, comerciales,
etc. Recuperando, en gran porcentaje, información que
no es útil por que no corresponde a lo que estamos
buscando. Todo esto es debido principalmente a que los
buscadores actuales no están diseñados para
"comprender".
Actualmente se esta planteando el uso de la
denominada Web Semántica o de conocimiento, que permita, de manera
automática o semiautomática, que los datos puedan
ser utilizados y comprendidos por los agentes web, sin
necesidad de la intervención humana. En resumen de lo
que se trata de convertir la información en
conocimiento, referenciando datos a metadatos consensuados a
algún dominio.
Para que todo esto sea posible se necesita que la
información sea legible a los ordenadores, esté
consensuada y sea reutilizable. El estudio de las
ontologías proporcionan los medios
para representar de esta manera el
conocimiento.
El Grid Computing, surge como una evolución de los Clusters,
ambos con la intención de aprovechar las actuales
capacidades de los ordenadores en su conjunto para permitir
simular un gran supercomputador y así poder
disponer de una alta capacidad de cálculo y almacenamiento, la diferencia
esencial se encuentra en la distribución local en el caso de los
Clusters y una distribución geográfica en el
caso de los Grid Computing.
El presente trabajo lo que intenta mostrar es el
beneficio que se puede conseguir para el Information
Retrieval cuando lo unimos a las bondades del Grid Computing,
y también un panorama de la investigación, que
en la actualidad, se realiza con respecto a esta
combinación de tecnologías.
Para lograr tal propósito veremos una
visón general de que es Recuperación de
Información, Grid Computing y las investigaciones de algunas organizaciones que
actualmente están abocadas a este tema.
RECUPERACIÓN
DE LA INFORMACIÓN (Information Retrieval –
IR)

Debido a la basta información que se crea y
maneja en la actualidad, en gran medida, gracias a la
aparición de Internet asociada a otras tecnologías,
aparece en nuestro entorno esta nueva parte de la Informática que se encarga de la
recuperación de la información útil para los
usuarios. Existen muchas definiciones al respecto, de las cuales
citamos las más relevantes:

Baeza – Yates (1999): Parte de la
informática que estudia la recuperación de la
información (no datos) de una colección de
documentos
escritos. Los documentos recuperados pueden satisfacer una
necesidad de información de un usuario expresada
normalmente en lenguaje
natural.
Korfhage (1997): La localización y
presentación a un usuario de información
relevante a una necesidad de información expresada como
una pregunta.
Salton (1989): Un sistema de
recuperación de información procesa archivos de
registros y
peticiones de información, e identifica y recupera de
los archivos ciertos registros en respuesta a las peticiones de
información.

De éstas podemos resumir que "Es el arte y/o ciencia que se
encarga de la búsqueda y presentación de
información relevante, de grandes colecciones de
documentos, a un usuario que hace una petición normalmente
en lenguaje natural".

Características

Esta información debería satisfacer las
necesidades de información del usuario.
La información buscada puede estar almacenada
en formatos de muy diferentes
características.
Es un estudio multidisciplinario: La lingüística (Ciencia que se encarga
del estudio del lenguaje), La semiótica (Teoría general de los signos), La
informática (Ciencia del tratamiento lógico y
automático de la información), La
biblioteconomía (Conjunto de conocimientos
teóricos y técnicos relativos a la
conservación, organización y administración de las bibliotecas), Ingeniería de Información
(Conjunto de técnicas para tratar de representar la
información de manera concreta), etc.

Facetas de búsqueda

Búsqueda de contenidos multimedia.-
Búsqueda de archivos de vídeo, audio, imágenes
u otros formatos cualesquiera a partir de la
localización de expresiones que pudieran estar en campos
de texto o en
los enlaces al archivo.
Buscador difuso o borroso.- Localiza documentos o
registros en bases de datos similares a la expresión de
consulta.
Buscador semántico.- Expande las consultas
usando sinónimos de las palabras empleadas para expresar
una búsqueda.
Buscador multilingüe.- Permite expresar la
búsqueda en un idioma y localizar todos los documentos
relevantes en cualquier idioma.
Sistemas de autorespuestas.- Tratan de localizar, no
un documento, sino el párrafo concreto que
responde a una consulta realizada por un usuario.

Búsqueda en Internet

Los actuales buscadores de Internet utilizan dos formas
básicas para almacenar y recuperar
información:

Los directorios: Los cuales agrupan la
información en una estructura
temática y jerárquica relacionada, y la
búsqueda se realiza recorriendo la estructura de un
rubro al subrubro hasta encontrar lo que buscamos.
Los motores: Los cuales utilizan programas que
revisan páginas, analizando sus cambios para enviarlos a
un recolector en donde se indexan de alguna manera
específica para su posterior
recuperación.

Extraen determinadas palabras de un documento (depende
del motor:
Título, URL, Keywords, metadatos, etc. o un filtrado
específico). Generando temas (grupo de
palabras clave) específicos de cada
documento.

Estos temas son asociados a una lista de palabras en
una tabla inversa o fichero inverso, y para realizar una
búsqueda se recorren las páginas ya indexadas,
buscando la (s) palabra (s) de la consulta para devolver las
páginas correspondientes en un orden que depende del
algoritmo
del buscador.

El proceso de
búsqueda mediante directorios esta quedando desfasado
debido a que la actividad de clasificación de la
información en temas jerárquicos no es
automatizado, en cambio los
motores
están predominando ante esto, pues sus programas a
través de los distintos modelos de
indización y recuperación (Modelo
Booleano, Vectorial y Probabilística) [2], permiten una
mejor recuperación. Pero aun estás búsquedas
no son óptimas pues se realizan en base a la
comparación de las palabras de las consultas en los
documentos, lo cual hace generar muchos resultados no relevantes
para el usuario (Ruido) y en
otro caso si el modelo de recuperación es muy restrictivo,
generará que mucha información que si es relevante
no aparezca en los resultados mostrados (Silencio).

La WEB Semántica

La Web Semántica aparece como solución
para hacer más eficientes las búsquedas, la cual
consiste en que los datos de los usuarios puedan ser
"comprendidos" y utilizados por los ordenadores sin necesidad de
la supervisión humana.

Para que esto sea posible, la Web Semántica se
apoya en las ontologías. La definición de
ontologías más aceptada es la propuesta por Gruber
[1]: "una especificación explícita y formal sobre
una conceptualización compartida".

Constituyen el conocimiento en Internet, pues definen
formalmente los conceptos de los diferentes dominios y sus
relaciones, con capacidad para realizar deducciones con este
conocimiento. Las ontologías están compuestas
por:

Conceptos.- Ideas básicas a
formalizar.
Relaciones.- interacciones y enlaces entre los
conceptos del dominio.
Funciones.- Tipo concreto de relación
donde se identifica un elemento mediante el cálculo de
una función
que considera varios elementos de la ontología.
Instancias.- Se usa para representar objetos
determinados de un concepto.
Axiomas.- Son teoremas que se declaran sobre
relaciones que deben cumplir los elementos de la
ontología.

Tendencia actual de la
investigación

Presentamos algunas tendencias actuales de
investigación acerca de la Recuperación de
Información:

Gestión del conocimiento.- La nueva
economía
se basa principalmente en que el factor central en el proceso
de creación de riqueza pasa a ser "el conocimiento" y
los demás activos
intangibles (contactos, creatividad,
innovación, posicionamiento, etc.) mucho más que el
capital, los
bienes de
capital u otros activos físicos. Por ejemplo el como
saber que conocimiento se tiene y se quiere en el personal de
la
organización, nos proporciona un proceso generador
de ventajas competitivas.
Vigilancia tecnológica.- Conjunto de acciones
coordinadas de búsqueda, tratamiento (filtrado,
clasificación, análisis) y distribución de
información obtenida de modo legal, útil para
distintas personas de una organización en su proceso de
toma de
decisiones y para alimentar su reflexión
estratégica (Prever, disminuir riesgos,
mejorar, innovar, colaborar).
Inteligencia tecnológica. Similar a la
gestión del conocimiento, lo único
aplicado a gestionar el conocimiento tecnológico de la
organización. Por ejemplo: ¿Qué se
necesita?¿En
dónde?¿Cuánto?¿Qué tiempo?

GRID
COMPUTING

Desde que los ordenadores fueron conectados en red, la idea del Grid
Computing ha estado
latente, y no había progresado debido principalmente a la
gran variedad técnica de la industria
informática: múltiples sistemas
operativos, arquitecturas de procesadores,
lenguajes de
programación, protocolos de
red, etc.

Pero debido a la perseverancia de sus seguidores, la
omnipresencia de Internet y la casi ubicuidad de Windows, es
que esta tecnología esta haciéndose
realidad.

El Grid Computing, es la tecnología que consta de
una infraestructura que permite el acceso y procesamiento
concurrente de un programa, entre
varias entidades computacionales independientes, que
actúan como un único gran sistema. Se usa
normalmente para programas que requieren procesos de
gran escala y/o acceso a mucha cantidad de datos.

Entre las características principales que
distinguen al Grid Computing podemos citar las
siguientes:

Permite integrar sistemas y
dispositivos heterogéneos, pues permiten que recursos
diferentes puedan interactuar entre sí.
Mejora del coste efectivo de los entornos operativos,
pues permite aprovechar al máximo los recursos
disponibles en una red, y de esta manera
a su vez mejora la capacidad de los recursos para responder a
las fluctuaciones de la demanda.
Las tecnologías grid son flexibles, pues son
capaces de ajustarse dinámicamente a los entornos
cambiantes y fluctuantes de las tecnologías de la
información.
Aumenta la fiabilidad de la infraestructura Sacando
ventaja de los recursos del grid como una alternativa ante la
recuperación de los desastres tradicionales.

Los objetivos que
persigue el Grid Computing para una empresa u
organización los citamos a continuación:

Mejorar los tiempos para la producción:
Pues permite incrementar la productividad y
colaboración; y de esta manera las organizaciones
mejoran sus tiempos de resultados y por lo tanto rapidez en el
tiempo de lanzamiento al mercado, que
en última instancia constituye una ventaja
competitiva.
Permitir la colaboración y promover
flexibilidad operacional: Pues no solo unirá
recursos tecnológicos dispares, sino también
gente y aptitudes; permitiendo de esta manera la posibilidad de
compartir, acceder y gestionar información, mejorando la
colaboración entre unidades empresariales.
Escalar para satisfacer demandas variables
del negocio: Permite crear infraestructuras operativas
flexibles y resistentes, que faciliten abordar rápidas
fluctuaciones en la demanda, accediendo instantáneamente
a recursos de computación y datos para "sentir y
responder" a las necesidades de negocio.
Incrementen la productividad: Dando a los
usuarios finales acceso a los recursos de computación,
datos y almacenamiento que necesiten y cuando los necesiten,
ayudando a las empresas a
equipar mejor a sus empleados para efectuar sus tareas,
resolver problemas
comerciales complejos con facilidad y moverse entre etapas del
diseño de productos,
proyectos de
investigación y más, todo más
rápidamente.
Aprovechar inversiones
de capital existentes: Maximizar la utilización
eficiente y productiva de los recursos existentes es una de las
claves para reducir costos
operativos. Además, las empresas pueden aprovechar los
recursos grid para entregar escenarios de back up y
recuperación efectivos y de bajo costo, sin
necesidad de invertir para duplicar sistemas.

Los organismos claves de investigación que
actualmente están abocados en Grid Computing son los
siguientes:

The Globos Alliance [10]
The Global Grid Forum [11]

La rama de la informática, que presentamos al
inicio: "la recuperación de información" tiene
su razón de ser ante la gestión (almacenamiento
y recuperación) de las grandes cantidades de
información que se manejan en la actualidad, y por la
cual cada día se investigan mejores prácticas
para hacer que labor sea eficiente.
El Grid Computing, a pesar de ser una idea que tiene
ya algunos años de aparición, esta tomando
relevancia en estos tiempos, y cuya principal
característica es el almacenamiento y procesamiento de
información a gran escala.
Por consiguiente, la tecnología de Grid
Computing, puede ser muy provechosa para potenciar la
Recuperación de Información, de hecho ya
existen muchas investigaciones abocadas a la gestión
de la información en entornos Grid. A
continuación citaremos algunos proyectos al
respecto.
1. Proyecto GridIR
RECUPERACIÓN DE LA
INFORMACIÓN EN ENTORNOS GRID

Grid Information Retrieval, es una nueva iniciativa para
juntar las tecnologías de Recuperación de
Información y Grid Computing, lo cual ofrecerá
nuevas técnicas y potencialidades a los sistemas de
recuperación de la información.

Permitirá una similar operatividad que en la
computación distribuida pero con mayor detalle de
implementación para tareas de asignación y coordinación entre los elementos en el
grid.

También posee un modelo de seguridad para
todos sus niveles de la infraestructura Grid.

El GridIR describe un modelo de interacción entre la recuperación de
Información y el entorno Grid el cual esta basado en la
plataforma de la OSGA (Open Grid Services Architecture) cuyos
servicios
soportan a los modelos tradicionales de la Recuperación de
Información. Estos servicios ofrecen muchas ventajas entre
ellos:

La oportunidad de mejorar la operatividad de las
redes de
trabajo de las base de
datos federadas obteniendo una óptima
performance.
El uso de "divide y vencerás" para permitir la
conexión de las necesidades de información a
documentos, por medio de colecciones de documentos,
índices y componentes de consultas complejas, las cuales
todas existen en los servicios de GridIR.
El modelo de seguridad de GridIR permitirá
"publicar" niveles de colecciones de documentos por el Grid
pero con listas de control de
acceso, que podrían limitar quienes pueden consultar o a
quienes se les mostrará los resultados, así como
también.
Ejecutar eventos de
reindexación vía modelos push or
pull.

La arquitectura de
GridIR es aun un trabajo en progreso y promete ser una nueva
propuesta para el Global Grid Forum (todo basado en los servicios
de Grid de OSGA) y satisfacer la distribución y
sincronización de requisitos. GridIR se desglosa en los
siguientes servicios básicos:

Servicios de metadatos.- Incluye una facilidad
explicativa de metadatos para permitir la interacción
entre los servicios de GridIR y los datos.
Servicios de administración de colecciones.-
Permite el control de colecciones, harvesting (recolector),
actualizaciones incluyendo la habilidad para contenidos push
and pull basados en eventos de colecciones. Estos servicios
ofrecen estandarizados APIs para servicios similares a web
crawlers, spiders and harvester y así poder evitar
atascos y dar mayor eficiencia.
Servicios de Indexación y
búsqueda.- Permite construir índices, incluir
actualizaciones de colecciones de documentos. También
son responsables de procesamiento de consultas y procesamiento
de resultados.
Servicios de procesamiento de consultas.-
Adicionan funcionalidad para búsquedas distribuidas,
eventos asíncronos (incluyen filtros y tópicos de
detección), unen resultados, etc.

El GridIR ofrecerá nuevas técnicas y
potencialidades para los sistemas de Recuperación de
Información, nuevos caminos para la manipulación y
recuperación de la información. El futuro que
proyecta GridIR es que todas las personas tengan sus propios
sistemas de recuperación de Información, donde
puedan afinar sus actuales necesidades de información,
preferencias e intereses. Esto es factible de implementar con
elementos de Grid, que permiten el conocimiento de la historia de un usuario y sus
necesidades mediante colecciones de datos federadas.

Proyecto Grace

Este proyecto
está basado en el principio que para mejorar un sistema de
administración de contenido, no debería cambiar o
extender innecesariamente los recursos existentes de los clientes,
más bien permitir al cliente maximizar
sus usos. Esto se logra principalmente por la integración de las fuentes de
contenidos existentes y el uso de la tecnología
Grid.

Con el proyecto Grace, las organizaciones pueden
progresivamente integrar variadas y múltiples fuentes de
contenidos internas, y conseguir un solo punto de acceso a todos
ellos en paralelo.

Además Grace permite, a las organizaciones,
integrar sus fuentes de contenidos internos con adicionales
recursos externos, tales como: repositorios de base de documentos
WEB, base de datos y artefactos de búsqueda.

Introduce una innovadora propuesta para la
integración de múltiples fuentes de contenidos:
Sistemáticamente recupera información relevante de
esos documentos, aplicando muy poderosos métodos de
procesamiento de lenguaje natural, en orden a la
reindexación de ellos dentro de un dominio de
conocimiento. El dominio de conocimiento no solo es la
visualización de relevantes fuentes de contenido
múltiple, sino también incorpora el esencial
encapsulamiento semántico de ontologías
relacionadas.

Grace, sistemáticamente recoge las fuentes
relevantes de contenidos, ofrece una constante
actualización del dominio del conocimiento con una nueva y
relevante información. Estas actualizaciones son
automáticas y disponibles de inmediato en el dominio del
conocimiento.

Information Representation on the Grid: a
Synthetic Database Benchmark/Workload for Grid Information
Servers.

El Grid se proyecta como un paradigma de
la computación distribuida de grandes prestaciones.
La
administración de los recursos de información
es complicada debido a que sus componentes (Recursos grid, host,
clusters, personas, librerias, paquetes de software y servicios) tienen
altos índices de cambios.

Este grupo de investigadores del Departamento de
Ciencias de la
Computación de la Universidad de
Indiana realiza el proyecto de un sintético
Benchmark/workload de base de datos para Servidores de
Información Grid. El Benchmark/workload es un conjunto de
consultas y escenarios desarrollados de un modelo de datos de una
plataforma neutral de recursos grid. Todo esto con las siguientes
finalidades:

Comprensión de los recursos de
representación y recuperación de
información en el Grid Computing.
La aplicación de pruebas del
Benchmark de Base de Datos a tres plataformas de base de datos
muy heterogéneas: MySQL 4.0
(RDBMS), Xindice 1.1 (XML database) y
MDS2 (LDAP database).
Metricas de performance para pruebas de aspectos
tangibles e intangibles de recuperación de
información: Tiempo de respuesta, facilidad de uso,
etc

El proceso de pruebas que se sigue para lograr los
objetivos es el siguiente:

Consultas y actualizaciones, las cuales están
agrupadas en cinco categorias: Alcance, Índices,
Selectividad, enlaces y
Actualización/conexión.
Escenarios especificados por temas y cantidad de
trabajo, bajo tiempos de duración controlados, para
concurrentes consultas y actualizaciones.
Facilidad de uso: Medida intangible, usa
métricas de la relación de la cantidad de
Bytes/consultas hechas con parámetros diferentes
dependiendo de la plataforma usada.

En concreto el grupo de investigación apunta a
perfeccionar un modelo de análisis de performance y
volúmenes de trabajo para Servidores de Información
Grid.

El presente trabajo muestra que
los sistemas de recuperación de información
adquirirán nuevas técnicas y potencialidades al
trabajar bajo entornos Grid Computing, que le
permitirá manejar de manera eficiente
información en formatos tanto estructurados como no
estructurados (documentos texto en lenguaje natural) que
actualmente constituyen una ardua tarea computacional,
distribuir de manera conveniente los recursos de
información y así lograr una
colaboración efectiva entre los componentes de un
sistema. Los sistemas de recuperación de
información no podrían lograr la eficiencia
esperada, sobre todo en el campo del procesamiento del
lenguaje natural, sin el apoyo del Grid Computing.
Hemos podido constatar que la combinación de
tecnologías específicas para lograr potenciar
las mimas, podría representar temas de
investigación muy interesantes, promisorios y
novedosos para futuras investigaciones.
CONCLUSIONES
BIBLIOGRAFÍA

R. Baeza-Yates, B. Ribeiro-Neto. Modern Information
Retrieval, Addison-Wesley, 1999.
Grupo Alarcos, Universidad de Castilla-La Mancha.
Almacenamiento y recuperación de
información: http://alarcos.inf-cr.uclm.es/doc/ARI/ari.htm
Information
Retrieval Group, University of Glasgow. Information
Retrieval: http://www.dcs.gla.ac.uk/Keith/Preface.html
Portal de Daedalus. Recuperación de
Información: http://www.daedalus.es/AreasILRecInfo-E.php
Portal de Wanadoo. Indización y
Recuperación de la información:

http://pdf.rincondelvago.com/indizacion-y-recuperacion-de-informacion.html
Portal de Geocities. Recuperación de
Información, Ontologías:
http://es.geocities.com/recupdeinformacion_ontologias/sobreontolgias.htm
Electronic Content Management Skills.
Organización, filtración y
representación de la información:
http://mpinto.ugr.es/e-coms/or_con_elect.htm#or2
Adolfo Lozano Tello. Ontologías en la Web
Semántica. Departamento de Informática de la
Universidad de Extremadura, España.
Grid. Org. Grid Computing: http://www.grid.org/home.htm
The Globus Alliance: www.globus.org
The Global Grid Forum: www.ggf.org
IBM. Grid Computing:
http://www-306.ibm.com/e-business/la/evolving/ondemand/technology/grid
Planet.com. Grid Computing:
http://www.gridcomputingplanet.com/features/article.php/3394371
Grupo Alarcos, Universidad de Castilla-La Mancha.
Base de Datos Federadas:
http://alarcos.inf-cr.uclm.es/doc/bbddavanzadas/federadas.pdf
GridIR.Org. Proyecto GridIR: http://www.gridir.org/overview_gridir.html
GridIR Arquitecture Tutorial: www.gir-wg.org/papers/tutorial.pdf
Grace. GRid seArch & Categorization
Engine: http://www.grace-ist.org/
Grace. Proyecto Grace:
http://www.grace-ist.org/docs/GGF-Lessons%20learned.pdf
Beth Plale, Craig Jacobs, Ying Liu, Charlie Moad,
Rupali Parab, Prajakta Vaidya and Nithya Vijayakumar.
Information Representation on the Grid: a Synthetic Database
Benchmark/Workload for Grid Information Servers. Computer
Science Department, Indiana University, Bloomington,
IN.

Omar Hurtado Jara

Sistemas Distribuidos

Doctorado en Ingeniería
Informática

Departamento de Informática Universidad Carlos
III de Madrid
Avda. de la universidad, 30 28911 Leganés–Madrid.
España