Las grandes cantidades de información, que se crean y se manejan actualmente, han hecho que su almacenamiento y recuperación se un problema que esta en constante investigación bajo el nombre de Recuperación de Información (Information Retrieval). El Grid Computing, tecnología que simula un supercomputador a partir de muchos pequeños ordenadores, en cuanto, sobre todo, a las capacidades de almacenamiento y procesamiento.
El presente trabajo pretende mostrar como la Recuperación de Información se puede apoyar en el Grid Computing para proveer de nuevas técnicas y potencialidades para gestionar de manera óptima la información.
Palabras Claves
Recuperación de Información, Grid Computing, GridIR, Grace.
La aparición de la Internet a producido cambios profundos en la actividad humana, a tal punto que en la actualidad se denomina la era de la información, por la importancia que tiene ésta en el que hacer de las personas y organizaciones.
La creación de la World Wide Web en 1989 por Tim Berners-Lee, junto con otras tecnologías asociadas, trajo consigo la producción de información a gran escala. Ahora el problema se encuentra en el almacenamiento y recuperación de la información, pues ésta, a parte de lo basta que es, se encuentra en formatos de muy diferentes características.
Una solución a esto fue la aparición de los buscadores, que sin duda son de gran ayuda para encontrar alguna información requerida por el usuario, pero no es muy precisa, pues la búsqueda se realiza, principalmente, en base a la localización de palabras claves, y no diferencian, por ejemplo, entre páginas personales, académicas, comerciales, etc. Recuperando, en gran porcentaje, información que no es útil por que no corresponde a lo que estamos buscando. Todo esto es debido principalmente a que los buscadores actuales no están diseñados para "comprender".
Actualmente se esta planteando el uso de la denominada Web Semántica o de conocimiento, que permita, de manera automática o semiautomática, que los datos puedan ser utilizados y comprendidos por los agentes web, sin necesidad de la intervención humana. En resumen de lo que se trata de convertir la información en conocimiento, referenciando datos a metadatos consensuados a algún dominio.
Para que todo esto sea posible se necesita que la información sea legible a los ordenadores, esté consensuada y sea reutilizable. El estudio de las ontologías proporcionan los medios para representar de esta manera el conocimiento.
El Grid Computing, surge como una evolución de los Clusters, ambos con la intención de aprovechar las actuales capacidades de los ordenadores en su conjunto para permitir simular un gran supercomputador y así poder disponer de una alta capacidad de cálculo y almacenamiento, la diferencia esencial se encuentra en la distribución local en el caso de los Clusters y una distribución geográfica en el caso de los Grid Computing.
El presente trabajo lo que intenta mostrar es el beneficio que se puede conseguir para el Information Retrieval cuando lo unimos a las bondades del Grid Computing, y también un panorama de la investigación, que en la actualidad, se realiza con respecto a esta combinación de tecnologías.
Para lograr tal propósito veremos una visón general de que es Recuperación de Información, Grid Computing y las investigaciones de algunas organizaciones que actualmente están abocadas a este tema.
Debido a la basta información que se crea y maneja en la actualidad, en gran medida, gracias a la aparición de Internet asociada a otras tecnologías, aparece en nuestro entorno esta nueva parte de la Informática que se encarga de la recuperación de la información útil para los usuarios. Existen muchas definiciones al respecto, de las cuales citamos las más relevantes:
De éstas podemos resumir que "Es el arte y/o ciencia que se encarga de la búsqueda y presentación de información relevante, de grandes colecciones de documentos, a un usuario que hace una petición normalmente en lenguaje natural".
Los actuales buscadores de Internet utilizan dos formas básicas para almacenar y recuperar información:
Extraen determinadas palabras de un documento (depende del motor: Título, URL, Keywords, metadatos, etc. o un filtrado específico). Generando temas (grupo de palabras clave) específicos de cada documento.
Estos temas son asociados a una lista de palabras en una tabla inversa o fichero inverso, y para realizar una búsqueda se recorren las páginas ya indexadas, buscando la (s) palabra (s) de la consulta para devolver las páginas correspondientes en un orden que depende del algoritmo del buscador.
El proceso de búsqueda mediante directorios esta quedando desfasado debido a que la actividad de clasificación de la información en temas jerárquicos no es automatizado, en cambio los motores están predominando ante esto, pues sus programas a través de los distintos modelos de indización y recuperación (Modelo Booleano, Vectorial y Probabilística) [2], permiten una mejor recuperación. Pero aun estás búsquedas no son óptimas pues se realizan en base a la comparación de las palabras de las consultas en los documentos, lo cual hace generar muchos resultados no relevantes para el usuario (Ruido) y en otro caso si el modelo de recuperación es muy restrictivo, generará que mucha información que si es relevante no aparezca en los resultados mostrados (Silencio).
La Web Semántica aparece como solución para hacer más eficientes las búsquedas, la cual consiste en que los datos de los usuarios puedan ser "comprendidos" y utilizados por los ordenadores sin necesidad de la supervisión humana.
Para que esto sea posible, la Web Semántica se apoya en las ontologías. La definición de ontologías más aceptada es la propuesta por Gruber [1]: "una especificación explícita y formal sobre una conceptualización compartida".
Constituyen el conocimiento en Internet, pues definen formalmente los conceptos de los diferentes dominios y sus relaciones, con capacidad para realizar deducciones con este conocimiento. Las ontologías están compuestas por:
Presentamos algunas tendencias actuales de investigación acerca de la Recuperación de Información:
Desde que los ordenadores fueron conectados en red, la idea del Grid Computing ha estado latente, y no había progresado debido principalmente a la gran variedad técnica de la industria informática: múltiples sistemas operativos, arquitecturas de procesadores, lenguajes de programación, protocolos de red, etc.
Pero debido a la perseverancia de sus seguidores, la omnipresencia de Internet y la casi ubicuidad de Windows, es que esta tecnología esta haciéndose realidad.
El Grid Computing, es la tecnología que consta de una infraestructura que permite el acceso y procesamiento concurrente de un programa, entre varias entidades computacionales independientes, que actúan como un único gran sistema. Se usa normalmente para programas que requieren procesos de gran escala y/o acceso a mucha cantidad de datos.
Entre las características principales que distinguen al Grid Computing podemos citar las siguientes:
Los objetivos que persigue el Grid Computing para una empresa u organización los citamos a continuación:
Los organismos claves de investigación que actualmente están abocados en Grid Computing son los siguientes:
La rama de la informática, que presentamos al inicio: "la recuperación de información" tiene su razón de ser ante la gestión (almacenamiento y recuperación) de las grandes cantidades de información que se manejan en la actualidad, y por la cual cada día se investigan mejores prácticas para hacer que labor sea eficiente.
El Grid Computing, a pesar de ser una idea que tiene ya algunos años de aparición, esta tomando relevancia en estos tiempos, y cuya principal característica es el almacenamiento y procesamiento de información a gran escala.
Por consiguiente, la tecnología de Grid Computing, puede ser muy provechosa para potenciar la Recuperación de Información, de hecho ya existen muchas investigaciones abocadas a la gestión de la información en entornos Grid. A continuación citaremos algunos proyectos al respecto.
Grid Information Retrieval, es una nueva iniciativa para juntar las tecnologías de Recuperación de Información y Grid Computing, lo cual ofrecerá nuevas técnicas y potencialidades a los sistemas de recuperación de la información.
Permitirá una similar operatividad que en la computación distribuida pero con mayor detalle de implementación para tareas de asignación y coordinación entre los elementos en el grid.
También posee un modelo de seguridad para todos sus niveles de la infraestructura Grid.
El GridIR describe un modelo de interacción entre la recuperación de Información y el entorno Grid el cual esta basado en la plataforma de la OSGA (Open Grid Services Architecture) cuyos servicios soportan a los modelos tradicionales de la Recuperación de Información. Estos servicios ofrecen muchas ventajas entre ellos:
La arquitectura de GridIR es aun un trabajo en progreso y promete ser una nueva propuesta para el Global Grid Forum (todo basado en los servicios de Grid de OSGA) y satisfacer la distribución y sincronización de requisitos. GridIR se desglosa en los siguientes servicios básicos:
El GridIR ofrecerá nuevas técnicas y potencialidades para los sistemas de Recuperación de Información, nuevos caminos para la manipulación y recuperación de la información. El futuro que proyecta GridIR es que todas las personas tengan sus propios sistemas de recuperación de Información, donde puedan afinar sus actuales necesidades de información, preferencias e intereses. Esto es factible de implementar con elementos de Grid, que permiten el conocimiento de la historia de un usuario y sus necesidades mediante colecciones de datos federadas.
Proyecto Grace
Este proyecto está basado en el principio que para mejorar un sistema de administración de contenido, no debería cambiar o extender innecesariamente los recursos existentes de los clientes, más bien permitir al cliente maximizar sus usos. Esto se logra principalmente por la integración de las fuentes de contenidos existentes y el uso de la tecnología Grid.
Con el proyecto Grace, las organizaciones pueden progresivamente integrar variadas y múltiples fuentes de contenidos internas, y conseguir un solo punto de acceso a todos ellos en paralelo.
Además Grace permite, a las organizaciones, integrar sus fuentes de contenidos internos con adicionales recursos externos, tales como: repositorios de base de documentos WEB, base de datos y artefactos de búsqueda.
Introduce una innovadora propuesta para la integración de múltiples fuentes de contenidos: Sistemáticamente recupera información relevante de esos documentos, aplicando muy poderosos métodos de procesamiento de lenguaje natural, en orden a la reindexación de ellos dentro de un dominio de conocimiento. El dominio de conocimiento no solo es la visualización de relevantes fuentes de contenido múltiple, sino también incorpora el esencial encapsulamiento semántico de ontologías relacionadas.
Grace, sistemáticamente recoge las fuentes relevantes de contenidos, ofrece una constante actualización del dominio del conocimiento con una nueva y relevante información. Estas actualizaciones son automáticas y disponibles de inmediato en el dominio del conocimiento.
El Grid se proyecta como un paradigma de la computación distribuida de grandes prestaciones. La administración de los recursos de información es complicada debido a que sus componentes (Recursos grid, host, clusters, personas, librerias, paquetes de software y servicios) tienen altos índices de cambios.
Este grupo de investigadores del Departamento de Ciencias de la Computación de la Universidad de Indiana realiza el proyecto de un sintético Benchmark/workload de base de datos para Servidores de Información Grid. El Benchmark/workload es un conjunto de consultas y escenarios desarrollados de un modelo de datos de una plataforma neutral de recursos grid. Todo esto con las siguientes finalidades:
El proceso de pruebas que se sigue para lograr los objetivos es el siguiente:
En concreto el grupo de investigación apunta a perfeccionar un modelo de análisis de performance y volúmenes de trabajo para Servidores de Información Grid.
El presente trabajo muestra que los sistemas de recuperación de información adquirirán nuevas técnicas y potencialidades al trabajar bajo entornos Grid Computing, que le permitirá manejar de manera eficiente información en formatos tanto estructurados como no estructurados (documentos texto en lenguaje natural) que actualmente constituyen una ardua tarea computacional, distribuir de manera conveniente los recursos de información y así lograr una colaboración efectiva entre los componentes de un sistema. Los sistemas de recuperación de información no podrían lograr la eficiencia esperada, sobre todo en el campo del procesamiento del lenguaje natural, sin el apoyo del Grid Computing.
Hemos podido constatar que la combinación de tecnologías específicas para lograr potenciar las mimas, podría representar temas de investigación muy interesantes, promisorios y novedosos para futuras investigaciones.
Omar Hurtado Jara
Sistemas Distribuidos
Doctorado en Ingeniería Informática
Departamento de Informática Universidad Carlos III de Madrid
Avda. de la universidad, 30 28911 Leganés–Madrid. España
Trabajos relacionados
Ver mas trabajos de General |
|
Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.