Descripción y evaluación de agentes multibuscadores (página 2)

Partes: 1, 2

¿Debemos utilizar HotBot por su mayor
cobertura y por las ventajas inherentes de ser un sistema de
recopilación automática? (elevado grado de
exhaustividad en la indización y en el nivel de
representación de los documentos
distribuidos en internet, así como un
altísimo grado de especificidad en la indización).
¿Utilizamos Yahoo! por ser un directorio?
(recopilación manual de los
recursos, lo que
implica una evaluación
de los mismos y una estructura
jerárquica de los contenidos, que redunda en una mayor
facilidad en el lenguaje de
interrogación, al estar en un contexto más o menos
definido) (Benito
Amat, 1999).
¿Utilizamos uno u otro en función de
la consulta? Algunas de estas preguntas tienen respuestas muy
importantes desde un punto de vista documental. Si se contestaran
correctamente (cosa que raramente ocurre, a nuestro pesar) no
habría una justificación directa para la
utilización de otras herramientas.
La necesidad de éstas está primordialmente en el
gran volumen.

«Hablando de usuarios en general y tratando
de medir realmente el rendimiento de los agentes, hay que admitir
que no vamos a poder hacer
búsquedas muy exhaustivas a la vez que muy
precisas»

Podemos decir que los actuales buscadores
presentan el problema de considerar a la Red como la mayor base de datos
del mundo, sin tener en cuenta que en realidad es más bien
un "documento" hipertextual de gran profundidad. Para encontrar
información en internet es necesario, por
tanto, utilizar nuevas herramientas que aúnen las ventajas
de los actuales motores de
búsqueda y que permitan abarcar el máximo espectro
de la Red, pues los sistemas actuales
se están convirtiendo en repertorios referenciales
desfasados, con un período de actualización
irregular. Estas herramientas no son otras que las herramientas
de segunda generación (Aguillo,
1998).

Los agentes multibuscadores, como parte integrante de las
herramientas de segunda generación, son aplicaciones
cliente que el
usuario instala en su ordenador y ejecuta cuando quiere, sin
necesidad de conectarse previamente a ningún sitio
(Hípola y
Vargas-Quesada, 1999). En algunas de las
modalidades que se evaluarán en éste y futuros
trabajos utilizan uno o varios motores de búsqueda como
"semilla" (Aguillo, 1999) o punto de
partida para realizar las consultas, de tal forma que los
resultados obtenidos, si son pertinentes, se convierten en
"semilla" para un nuevo salto hipertextual. La combinación
de resultados de distintos buscadores incrementa la cobertura, y
no el solapamiento o la duplicidad de información. El uso
conjunto de 6 motores de búsqueda (HotBot,
AltaVista, Northern Light,
Excite, Infoseek y
Lycos) puede incrementar la cobertura con
respecto a un único buscador en 3"5 veces
(Lawrence y
Giles, 1998).

Objetivo del primer
estudio

Puesto que el uso de agentes multibuscadores permite obtener
mayor cobertura en la búsqueda que si se utilizara el
mejor buscador de internet (Chignell, Gwizdka y
Bodner, 1999), es necesario comprobar cuál es
el grado de precisión, exhaustividad y tiempo de
respuesta de cada uno de estos programas.

El objetivo del
presente trabajo es la
descripción y evaluación del
rendimiento de los denominados agentes "inteligentes" para la
recuperación de información en internet, en
concreto los
agentes multibuscadores Copernic,
EZSearch, MataHari,
iMine, WebSeeker,
WebFerret y WebStorm.

«El indicador de rendimiento en última
instancia no es ni la exhaustividad ni la precisión, sino
el producto entre
ambas, ya que muestra la ratio
existente entre lo que el usuario espera encontrar y lo que
realmente encuentra»

Toda clasificación es cuestionable, pero debido a la
amplitud (número, diversidad y características),
consideramos que la realizada por Isidro
Aguillo (1999) es, con diferencia, la más
adecuada y completa para afrontar un trabajo de este tipo. Como
se puede observar, los agentes aquí propuestos difieren en
número y en denominación con respecto al listado de
Aguillo. Esto se debe a que algunos de
ellos ya no están disponibles, o al menos han dejado de
estarlo en versión shareware (CrowCall,
KillSearch, SearchStream,
ZurfRiders, Full Find y
SearchWolf), a que otros han cambiado de nombre
(Quest99 es ahora iMine), o a una
reciente actualización de este listado poco antes de que
este trabajo saliera a la luz, lo que ha
provocado que Infoseek Express, entre otros, haya
quedado fuera de este estudio.

«La mayoría de los usuarios de los
motores de búsqueda no utilizan operadores en sus
consultas»

El resto de categorías de agentes "metabuscadores,
indexadores y mapeadores" se abordará en próximos
trabajos.

Metodología

Este estudio comienza con la elección de un total de
siete agentes "inteligentes" multibuscadores para la
recuperación de información en internet. Se han
elegido éstos y no otros porque en el momento de realizar
el análisis seis de ellos se encontraban
disponibles bajo la fórmula "shareware", lo que nos
permitía su utilización gratuita durante un
período limitado de tiempo (entre quince y treinta
días), y uno de ellos (Copernic) es de uso
totalmente gratuito durante tiempo indefinido. No se han incluido
por tanto otros programas que, aun teniendo las mismas
características que los anteriores, no se encontraban en
versión "shareware" o gratuita. Deliberadamente hemos
dejado fuera de esta selección
a EasySeeker, pues, aunque es un software totalmente gratis,
no es más que una versión reducida de
WebSeeker. También hemos excluido a
Hurricane Websearch, ya que su funcionamiento y/o
formato de salida y ordenación de las respuestas dejaba
mucho que desear con respecto al resto.

Existe otro tipo de productos como
Cybot, WebBandit,
WebWolf o BullsEye que no han
sido incluidos en el presente estudio pues, aunque tienen
características similares a los anteriores, también
presentan otras que los diferencian: utilización de los
"links" de las páginas obtenidas como "semilla" para
realizar nuevas búsquedas, indización
automática de páginas
web… No obstante, serán evaluados en próximos
trabajos.

Agentes
multibuscadores

Copernic 98
http://www.copernic.com
CrowCall
http://www.alphalink.com.au/~pbrooks/CrowCall
EasySeeker http://www.bluesquirell.com/products/easyseeker/easyseeker.html
EZSearch
http://www.americansys.com
FullFind Pro
http://www.jjsoftware.com/ fullfind.html
Hurricane WebSearch
http://gatecomm.com/websearch
Internetowy Poszukiwacz
http://www.poszukiwacz.pl
Killer Search
http://www.killersearch.com
Mata Hari
http://thewebtools.com
MetaQuest
http://members.tripod.com/~MetaQuest
QueryN MetaSearch
http://www.queryn.com
Quest 99
http://www.inforian.com
SearchWolf
http://www.msw.com.au/searchwolf
WebFerret Pro
http://www.ferretsoft.com
WebSeeker"98
http://www.bluesquirrel.com
WebStorm
http://www.sharpeware.com
ZurfRider
http://www.zurf.com

Tabla 1

Test de
evaluación

Ante la imposibilidad de configurar todos los agentes con las
mismas características "motores de búsqueda a
utilizar, número de respuestas por motor,
eliminación de respuestas duplicadas, comprobación
de su funcionamiento…" hemos optado por utilizar la
configuración por defecto de cada uno de ellos.

El test de
evaluación ha requerido fundamentalmente dos fases: una
recopilación de consultas por las que se iba a buscar y la
elección exacta de qué expresiones serían
sometidas a los agentes.

Primera fase: se decidió que las consultas
podían ser todas aquellas que realizasen tanto profesores
como alumnos de la Facultad de Biblioteconomía y
Documentación de la Universidad de
Granada, así como las utilizadas por otros
investigadores en estudios similares a éste
(Chu y Rosenthal,
1996, Leighton, 1998). Las consultas en
ningún caso han sido inventadas "ad casum", ni se han
tenido en cuenta las de aquellas personas que podían tener
conocimiento
de los defectos o virtudes de algunos de estos agentes. Se
recogieron un total de cuarenta y cinco preguntas.

Segunda fase: partiendo del conjunto de consultas anterior,
hubo que determinar cuántas y qué palabras
debían usarse en cada caso. Las búsquedas, como es
lógico, en algunas ocasiones están muy relacionadas
con el ámbito académico, y utilizan dos o
más palabras, como ocurre en trabajos ya publicados como
los de Leighton y
Srivastava (1998),
Chu y Rosenthal
(1996), Wei y
Marchionini (1996).

Ejemplo de curva de rendimiento

Como algunos autores indican en otros estudios
(Magellan, 1997), y como nosotros hemos
podido comprobar, la mayoría de los usuarios de los
motores de búsqueda no utilizan operadores en sus
consultas, por lo que se ha optado por esta opción. El
número de consultas final a las que se ha sometido cada
agente ha sido de quince, las cuales se han elegido por un
procedimiento
aleatorio de las cuarenta y cinco totales. Y son:

intelligent agents information retrieval
educación sordos
juegos java
bibliotecología enseñanza Chile
comunidad virtual
shape analysis pointer compiler
oposición instituciones penitenciarias
classical greek philosophy
computers learning disabilities
camino de Santiago
plano metro Madrid
atm internet protocol
water quality agriculture nitrates
chess tournament
dublin core z3950

Tabla 2

Salvo las consultas quinta y décima ("comunidad
virtual" y "camino de Santiago") "para las que se ha requerido la
búsqueda como frase" en el resto se ha exigido a los
distintos agentes que recuperaran sólo aquellos documentos
en los que la coincidencia (matching) entre todos los
términos de consulta y los documentos fuese total.

Método de
búsqueda

Dado que no se ha podido contar con ocho ordenadores de las
mismas características, y ocho personas midiendo el tiempo
exacto de cada consulta, se han realizado todas en un mismo
equipo (Pentium III a 400 Mhz,
con 128 Mb de ram) y el mismo
día (21/08/99), siendo el tiempo máximo
transcurrido entre la misma consulta al primer agente y al
último de 16 minutos y 35 segundos.

Método de
evaluación

Con el fin de eliminar cualquier tipo de prejuicio por
parte de la persona que iba a
determinar qué documentos de los recuperados en cada
consulta eran relevantes y cuáles no, se utilizó un
método
ciego de evaluación. Una persona se encargó de
realizar las consultas con cada agente multibuscador, medir el
tiempo de respuesta, y almacenarlas en formato html. Mediante un
editor (FlexED32), se eliminaron cabeceras y
cualquier otro tipo de marca que pudiera
hacer recordar cuál es el agente multibuscador original,
estableciendo a su vez un código
de correspondencia entre página, número de consulta
y agente con el que se había realizado la
búsqueda.

Mata Hari

Una segunda persona, que en ningún caso conocía
el código de equivalencia entre consultas y agentes
multibuscadores, comprobó las conexiones de cada uno de
los documentos recuperados y determinó si eran relevantes
o no. Las conexiones fallidas se consideraron como documentos
recuperados no relevantes.

Exhaustividad y
precisión de los resultados

El principal objetivo de los agentes multibuscadores es
localizar y recuperar los documentos contenidos en la Red de la
forma más eficaz y rápida posible. Por tanto su
valor
dependerá de la capacidad para identificar la
información relevante, de la versatilidad de sus métodos y
de la facilidad para rechazar documentos extraños.

A la hora de realizar una evaluación se pueden
distinguir dos tipos de tests o pruebas:
eficiencia y
eficacia. La
última hace referencia a la capacidad de suministrar la
información que necesita el usuario. La eficiencia es la
medida del coste/tiempo necesaria para desarrollar un conjunto
dado de tareas.

Para evaluar un sistema son muchos los aspectos a tener en
cuenta. Cleverdon (1972)
identificó seis cuestiones que podían ser
aplicables y cuantificables en un sistema de
recuperación:

amplitud temática de la colección
tiempo de respuesta del sistema
formas de presentación de las salidas
grado de dificultad para el usuario en el uso
exhaustividad (proporción de documentos relevantes
en el conjunto de la base de datos)
precisión (proporción de documentos
relevantes recuperados)

De estas cuestiones las que más interesan son las dos
últimas, puesto que el resto puede derivarse de ellas.
Aunque la exhaustividad y la precisión son dos
parámetros de evaluación específicos que no
tienen mucho que ver con el coste o con el tiempo de respuesta,
de nada sirve un sistema barato o rápido si no devuelve
resultados precisos y de forma exhaustiva.

Un agente multibuscador será más eficaz cuanto
más y mejor sea capaz de satisfacer las necesidades
informativas del usuario, desde el punto de vista de su concepto de
relevancia, entendiendo ésta como la adecuación de
las representaciones documentales ofrecidas por el agente a la
representación de las necesidades informativas que el
usuario ha hecho explícitas mediante una consulta.

Para determinar el grado de exhaustividad y precisión
de cada agente se ha seguido la modificación propuesta por
Salton y McGill
(1983) al método tradicional propuesto por
Cleverdon en los estudios de Cranfield
(Harter, 1997).

Se han realizado quince consultas a cada agente, y sólo
se han tenido en cuenta los primeros veinte resultados de cada
recuperación, y en todo momento se respetó la
ordenación (ranking) ofrecida por cada programa.
Véase un ejemplo en la tabla 1.

Una vez recogidos todos los datos de exhaustividad y
precisión, se han unido en distintas matrices y se
ha calculado la media para las quince consultas de cada agente
multibuscador, con el fin de eliminar distorsiones.

Los resultados obtenidos se han representado de la siguiente
forma: exhaustividad en el eje x, precisión en el eje y. A
partir de la línea obtenida de cada agente, se ha
calculado su correspondiente curva de regresión, con lo
que se obtiene un resultado muy gráfico del grado de
eficacia o rendimiento (precisión/exhaustividad) de cada
agente (gráfico 1).

Una vez representadas las curvas de todos los agentes, se
puede deducir fácilmente cuál o cuáles son
los mejores.

Uno de los aspectos más interesantes de este tipo de
representaciones es la relación manifiesta que existe
entre exhaustividad y precisión: son inversamente
proporcionales. Esto da lugar al siguiente fenómeno:
siendo la relación entre exhaustividad y precisión
lo que determina la eficacia en la recuperación, en la
medida en que aumente la exhaustividad disminuirá la
precisión. Depende de la calidad de cada
agente pero, en general, no se pueden hacer búsquedas muy
exhaustivas a la vez que muy precisas.

El indicador de rendimiento en última instancia no es
ni la exhaustividad ni la precisión, sino el producto
entre ambas, ya que muestra la relación existente entre lo
que el usuario espera encontrar (la pregunta) y lo que realmente
encuentra (el resultado).

Descripción y características de los agentes
multibuscadores

Los agentes que aquí se recogen han sido seleccionados
según el criterio expuesto anteriormente. La
información que se ofrece a continuación
está derivada de la documentación "online" que proporciona cada
agente y de la experiencia personal obtenida
como consecuencia de su uso.

En esta fase se han estudiado tres características
fundamentales para la evaluación de cualquier software de
recuperación de información, como son: las
posibilidades de consulta que ofrecen; la presentación de
los resultados y la información que proporcionan; y la
valoración de los interfaces.

Con respecto a las posibilidades de consulta, todos utilizan
los operadores and, or y
frase, debido seguramente a que los motores de
búsqueda de los que se valen tienen distintos lenguajes de
interrogación y opciones, y éstos son los
más comunes.

Consultas, resultados e interfaz: valoración

Tiempo medio de respuesta

Curva de rendimiento de los agentes multibuscadores

En cuanto a los resultados de la consulta, la
información mínima que devuelven es: el
título, la dirección y la fuente o motor de
búsqueda. La suelen presentar de dos formas opcionales:
bien de manera tabular, mediante columnas, o generando una
página
web en el browser predeterminado.

«A nivel general, podemos decir que todos los
agentes multibuscadores tienen un rendimiento aceptable, pues
mantienen una precisión superior al
40%»

En todos los casos los interfaces están muy cuidados,
siendo lo más común entornos gráficos con iconos y despliegues de
ventanas que los hacen programas muy intuitivos donde la
información se encuentra rápidamente.

Copernic"98 v. 3.02

Desarrollado por Copernic Technologies Inc.,
es la versión gratuita de Copernic"99
Plus. Se integra plenamente en Microsoft Explorer
4.0 o superior, pero se encuentra limitado tanto en las
categorías temáticas (sólo 4 de las 21
posibles en la versión comercial) y en los buscadores (30
de 125). Aun así, es un agente bastante potente que
elimina enlaces duplicados y/o inexistentes, graba
automáticamente las páginas seleccionadas y, sobre
todo, destaca por su herramienta para presentar los resultados,
que permite reordenarlos o mostrarlos en función de su
estado (nuevo,
seleccionado, bajado, etc.).

http://www.copernic.com

MataHari v. 1.11

Es un agente de escritorio que cambió de propietario en
junio de 1999, cuando adquirió sus derechos
VisualMetrics Corporation. La versión con
la que se ha trabajado es shareware limitada a 15 días, y
sus características más destacables, por este
orden, son: la posibilidad de realizar consultas en la Red, en
una página web o en una base
de datos, lanzar dos búsquedas simultáneas,
utilizar los operadores booleanos, con lo que se llega a precisar
mucho en la frase de búsqueda, con el peligro de
complicarla; y las estadísticas de los resultados que ofrece,
como por ejemplo, la frecuencia de aparición de los
términos en las páginas.

http://thewebtools.com

WebStorm v. 2.5

Versión shareware de 30 días que destaca por su
interfaz y una presentación de los resultados muy
llamativa. Las demás características son bastante
flojas y le restan efectividad. Por ejemplo, en el lenguaje de
consulta la única posibilidad es utilizar
and. Y la información que ofrece es pobre:
título, dirección y fuente.

http://www.sharpeware.com/html/webstorm.html

Imine v. 1.0

Imine

Versión shareware limitada a 20 respuestas por
consulta. No permite guardar los resultados, ni siquiera en un
formato propio. Presenta un interfaz muy bueno pero una
personalización difícil y compleja, ya que en la
instalación se tiene que seleccionar y activar los
buscadores a los que se quiere que lance las consultas,
opción que ya viene configurada de antemano en otros
agentes.

http://www.aumgroup.com/imine

WebSeeker"98 v. 3.4

Aunque existe una versión gratuita muy parecida,
EasySeeker, se ha optado por evaluar la
versión shareware porque está menos limitada en sus
opciones de menú y es plenamente configurable. Ambos
programas han sido creados por Blue Squirrel, y
sus principales puntos a favor son el interfaz y su amigabilidad,
y la posibilidad de indizar los resultados.

http://www.bluesquirell.com/products/seeker/

webseeker.html

Internet EZSearch v. 3.0

Desarrollado por American Systems, es una
versión shareware limitada en el tiempo y en la
imposibilidad de grabar los resultados. Otra
característica en contra es la ordenación
sólo por relevancia. No permite hacerla por otros campos
como el título o el URL. Por contra su interfaz
gráfico está muy cuidado.

http://www.americansys.com/ezsearch.htm

WebFerret v. 2.7

De la empresa
FerretSoft, es la versión shareware de
WebFerretPRO que se encuentra limitada a 15
días y sólo 9 de los 33 posibles buscadores. Su
principal característica es la sencillez de su interfaz,
que facilita que se encuentren antes las distintas opciones del
menú.

http://www.ferretsoft.com/netferret/download.htm

Curva de rendimiento de los agentes multibuscadores vs motores de búsqueda

Resultados

Tiempo de respuesta.

Sorprendentemente las diferencias entre las medias de los
distintos agentes son bastante abultadas: 3"09 segundos para
WebFerret (el que menos tiempo empleó),
frente a los 48"05 segundos de iMine (el que
más tardó). Estas diferencias se deben
fundamentalmente a la configuración inicial adoptada en
cada agente, es decir, número de motores de
búsqueda a consultar y eliminación de resultados
duplicados y/o muertos. Ver gráfico 3.

Rendimiento/eficacia

Como se puede observar en el gráfico/4 todos los
agentes cumplen el principio por el que exhaustividad y
precisión son inversamente proporcionales.

Antes de comenzar a hablar del rendimiento de cada uno de los
agentes multibuscadores, queremos hacer hincapié en
algunos aspectos que llaman la atención nada más observar el
gráfico.

«Cuanto mayor sea el número de
representaciones documentales donde escoger mejor será el
rendimiento de los sistemas de
recuperación»

En primer lugar resulta extraño el comportamiento
de las curvas de rendimiento de todos los agentes, es decir, su
recorrido final en cuanto a precisión debería
terminar entre los valores
0"1 y 0"2. Que no suceda así se puede deber a varios
motivos: uno es que el sistema de ordenación por
relevancia que utilizan los distintos agentes no es lo
suficientemente bueno como para agrupar los documentos que mejor
se ajustan a las necesidades de información de los
usuarios, entre los veinte primeros resultados. Por otra parte,
los resultados podían haber sido distintos si en el
presente estudio se hubiesen tenido en cuenta no los veinte sino
los treinta primeros resultados de cada respuesta. Entonces se
conseguiría una mayor agrupación de documentos
relevantes en las veinte primeras recuperaciones y menor en el
resto, hasta llegar a treinta, con lo que se habría
obtenido una curva de rendimiento más ajustada a su
modelo ideal.
Nosotros nos inclinamos a pensar que este comportamiento viene
determinado por la conjunción de las dos explicaciones
anteriormente expuestas.

Otro aspecto que resulta desconcertante es la curva de
rendimiento de WebSeeker y
EZSearch, ya que su rendimiento es sensiblemente
inferior al resto de los agentes. La explicación es
sencilla. El primero no ordena los resultados por relevancia,
sino por buscador o alfabéticamente por URL, lo que
provoca que los documentos que mejor se ajustan a lo que demanda el
usuario aparezcan dispersos a lo largo de la recuperación,
y dependiendo del caso, fuera de los veinte primeros resultados
que aquí se han tenido en cuenta. El caso de
EZSearch es distinto: ordena los resultados, pero
según un criterio propio de relevancia, y distinto al del
resto.

«Está demostrado que la
combinación de seis buscadores puede llegar a ofrecer
hasta un 93% de cobertura en internet»

A nivel general, podemos decir que todos los agentes
multibuscadores, salvo los dos anteriores, tienen un rendimiento
aceptable, pues mantienen una precisión superior al
40%.

WebFerret es el que obtiene resultados
más precisos (recupera más documentos adecuados)
cuando la exhaustividad es baja o media, seguido muy de cerca por
Copernic. Sin embargo, cuando la exhaustividad
aumenta, la eficacia de ambos se invierte, es decir, a mayor
número de documentos recuperados, Copernic
es más preciso que su competidor.

Algo muy similar ocurre entre MataHari e
iMine, aunque siempre por debajo de los valores de
rendimiento de los dos últimos comentados.

El caso de WebStorm resulta un tanto curioso
pues su nivel de precisión, cuando la exhaustividad es muy
baja, es superior a iMine, pero a medida que
ésta última aumenta su rendimiento decrece,
llegando incluso a ofrecer niveles de precisión inferiores
al 40% cuando la exhaustividad es grande. Se podría decir
que es el ejemplo de un buen sistema de ordenación por
relevancia, pero poco capaz de localizar y recuperar la
información que se le demanda.

Webstorm

«Estamos seguros de que si
HotBot y AltaVista pudieran trabajar con el mismo número
de documentos con el que lo hacen los agentes multibuscadores, su
rendimiento sería igual o superior al de
éstos»

En el gráfico 5 se reproducen los rendimientos de
WebFerret y Copernic, y el
obtenido por HotBot y AltaVista.
Hay que aclarar que para obtener el rendimiento de estos dos
motores de búsqueda se ha utilizado la misma metodología que con los agentes.

WebFerret

El objetivo de este gráfico no es el de poner de
manifiesto el mayor rendimiento de los agentes sobre los motores
de búsqueda, sino incidir en la diferencia existente.
¿Cómo es posible que una serie de agentes que
prácticamente están dando sus primeros pasos en la
recuperación de información, obtengan mejores
resultados que unos buscadores depurados, experimentados y
especializados en la misma tarea?

«WebStorm es el ejemplo de un buen sistema de
ordenación por relevancia, pero poco capaz de localizar y
recuperar la información que se le
demanda»

Estamos seguros de que si los motores de búsqueda de
HotBot y AltaVista pudieran
trabajar con el mismo número de documentos con el que lo
hacen los agentes multibuscadores, su rendimiento sería
igual o superior al de éstos. La base de esta
afirmación se encuentra al comienzo de este
artículo. Cuanto mayor sea la cobertura, cuanto mayor sea
la base de datos, cuanto mayor sea el número de
representaciones documentales donde escoger para satisfacer las
informativas de las necesidades informativas del usuario
(consulta), mejor será el rendimiento de los sistemas de
recuperación. Como hemos dicho, el motor de
búsqueda con mayor cobertura es HotBot,
con un 34% aproximado de la totalidad de la Red. Está
demostrado que la combinación de seis buscadores puede
llegar a ofrecer hasta un 93% de cobertura en internet.

Conclusiones

La metodología aquí desarrollada para la
evaluación de un grupo de
agentes "inteligentes" puede ser discutible y mejorable. No se
pretende la elaboración de un modelo ideal de
evaluación de motores de búsqueda en internet,
aunque puede ser útil como referencia. Sin embargo
sí se ponen de manifiesto varias cosas.

Los actuales motores de búsqueda están
ofreciendo un rendimiento cada vez menor como consecuencia del
crecimiento de la Red. Una de las soluciones a
este problema puede estar en el uso de multibuscadores, ya sean
los aquí descritos u otros, pero siempre clientes
multibuscadores, ya que los basados en servidor son
bastante más pobres.

«El adjetivo "inteligente", aplicado a los
distintos agentes aquí estudiados, resulta totalmente
gratuito, pues ninguno de ellos demuestra ninguna capacidad a la
que se le pueda atribuir este
calificativo»

El adjetivo "inteligente", aplicado a los distintos agentes
aquí estudiados, resulta totalmente gratuito, pues la base
de conocimientos reactiva a los cambios en el entorno de la
información y en el de los usuarios que justifica el
comportamiento "inteligente" no parece existir propiamente en el
caso de los programas evaluados. Aunque también es verdad
que incorporan una serie de procesos
automatizados que los actuales motores de búsqueda no
tienen y que resultan bastante útiles, como por ejemplo:
programación y almacenamiento de
consultas, indización de las mismas, comprobación
del funcionamiento de la URL suministrada..

Nuestro objetivo prioritario no es realizar un ranking de los
agentes descritos, pero de los datos, cifras y gráficos
aquí recogidos se pueden deducir varias conclusiones: si
lo que pretendemos es obtener el mayor rendimiento posible en
nuestras búsquedas deberemos utilizar
WebFerret. Si la eficacia en la
recuperación es importante, pero también valoramos
otros aspectos como la amigabilidad del interfaz, grado y
facilidad de personalización, posibilidad para eliminar
resultados duplicados o muertos, y en definitiva todos aquellos
aspectos recogidos en la tabla 2, los mejores son
Matahari y Copernic. Ahora bien,
si tenemos en cuenta todos los apartados anteriores pero
también nos importa el precio, sin
duda el mejor de todos ellos es Copernic, pues
ofrece un rendimiento muy cercano a WebFerret. Su
amigabilidad y posibilidades de configuración son las
mejores de todos los aquí analizados, y además es
gratuito. ¿Qué más se puede pedir?

Bibliografía:

Aguillo, Isidro. CyberMetrics.
Consultado en: 03-08-99.
http://www.cindoc.csic.es/cybermetrics/links08.html

Aguillo, Isidro. "Del multibuscador al
metabuscador: los agentes trazadores de internet". En: IV
congreso Isko-España.
Eoconsid"99, 1999, pp. 239-245.

Aguillo, Isidro. "Herramientas de
segunda generación". En: Anuario Socadi de
documentación e información, 1998, pp.
85-112.

AltaVista.
Consultado en: 24-09-99.
http://www.altavista.com

Buscopio.
Consultado en: 19-10-99.
http://www.buscopio.com

Benito Amat,
Carlos. "Recuperación
en internet: cuatro modelos
complementarios y una agenda para su integración". En: Boletín
de RedIris, 1998, n. 48, pp. 36-51.
También en:
http://www.rediris.es/rediris/boletin/48/enfoque2.html

Chu, Heting; Rosenthal,
Mary. "Search engines for the
world wide
web. A comparative study and evaluation methodology". En:
Annual conference proceedings, 1996, pp.
19-24.

Cleverdon, Cyril
W. "On the inverse
relationship of recall and precision". En: Journal of
documentation, 1972, v. 28, pp. 195-201.

Copernic"99.
Consultado en: 24/09/99.
http://www.copernic.com

Chignell, Mark H.; Gwizdka, Jacek; Bodner, Richard
C. "Discriminating meta-search: a framework for
evaluation". Information processing &
management, 1999, v. 35. pp. 337-362.

Ding, Wei; Marchionini,
Gary. "A comparative study of
web search perfomance". Annual conference
proceedings, 1996, pp. 19-24.

EasySeeker.
Consultado en: 21-08-99.
http://www.bluesquirell.com/products/easyseeker/easyseeker.html

EZSearch. Consultado
en: 21-08-99.
http://www.americansys.com

FullFind Pro.
Consultado en: 21-08-99.
http://www.jjsoftware.com/fullfind.html

García Alonso, Jorge Juan. "El
futuro de la búsqueda de información". En:
En la Red, 1999, agosto-septiembre, v. [3], n.
[23], pp. 24-30.

Harter, Stephen P. y Hert,
Caroll A. "Evaluation of
information retrieval systems: approaches, issues and methods".
Annual review of information science and
technology, 1997, v. 32, pp. 3-94.

Hípola, Pedro y
Vargas-Quesada, Benjamín. "Agentes
inteligentes: definición y tipología. Los agentes
de información". En: El profesional de la
información, 1999, abril, v. 8, n. 4, pp.
13-21.

HotBot.
Consultado en: 24-09-99.
http://www.hotbot.com

Hurricane
WebSearch. Consultado en:
21-08-99.
http://www.gatecomm.com/websearch

IMine.
Consultado en: 21-08-99.
http://www.aumgroup.com/imine

Internet EZSearch. Consultado en:
21-08-99.
http://www.americansys.com/ezsearch.htm

Internetowy Poszukiwacz. Consultado en:
24-09-99.
http://www.poszukiwacz.pl

Killer Search. Consultado en: 21/08/99.
http://www.killersearch.com

Lawrence, Steve; Giles, Lee.
Accessibility and distribution of information on the web.
Consultado en: 27-07-99.
http://www.wwwmetrics.com

Lawrence, Steve; Giles, Lee. How big
is the web? How much of the web do the search engines index? How
up to date are the search engines?. Consultado en: 27-08-99.
http://www.neci.nj.nec.com/homepages/lawrence/websize98.html

Leighton, H. Vernon. Performance of
four world wide web (www) index services: Infoseek, Lycos,
WebCrawler, and wwwworm. Consultado en: 25-08-99.
http://www.winona.msus.edu/is-f/library-f/webind.htm

Leighton, H. Vernon; Srivastava,
Jaideep. Precision among world wide web search services (search
engines): AltaVista, Excite, HotBot, Infoseek, Lycos. Consultado
en: 03-08-99.
http://www.winona.msus.edu/library/webind2/webind2.htm

Maguellan internet guide. Consultao en: 03-08-99.
http://www.voyeur.mckinley.com/voyeur.cgi

MataHari. Consultado en: 21-08-99.
http://thewebtools.com

MetaQuest. Consultado en: 21/08/99.
http://members.tripod.com/~MetaQuest

Moya Anegón, Félix de.
Los sistemas integrados de gestión
bibliotecaria: estructuras de
datos y recuperación de información. Madrid:
Anabad, 1994. Isbn 848871615X.

Netcraft. Consultado en: 19-10-99.
http://www.netcraft.com

QueryN MetaSearch. Consultado en:
21/08/99.
http://www.queryn.com/queryn

Quest 99. Consultado en: 21/08/99.
http://www.inforian.com

Salton, G.; McGill, J.
Introduction to modern information retrieval. New
York: McGraw-Hill, 1983. Isbn 0070544840.

SearchWolf. Consultado en: 21/08/99.
http://www.msw.com.au/sp/search/index.html

Tomaiuolo, Nicholas G; Packer, G. An
analysis of internet search engines: assessment of over 200
search queries. Consultado en: 03/08/99.
http://neal.ctstateu.edu:2001/htdocs/websearch.html

WebFerret. Consultado en: 21/08/99.
http://www.ferretsoft.com/netferret/download.htm

WebStorm. Consultado en:21/08/99.
http://www.sharpeware.com/html/webstorm.html

WebSeeker"98. Consultado en: 21/08/99.
http://www.bluesquirell.com/products/seeker/webseeker.html

ZurfRider. Consultado en: 21/08/99.
http://www.zurf.com

El Profesional de la
Información, Noviembre
1999

Autores:

Pedro Hípola

Benjamín Vargas-Quesada

http://www.ugr.es/~benjamin

Agustín Montes

Universidad de Granada, Facultad de
Biblioteconomía y Documentación

Partes: 1, 2