- Cómo obtiene esta información
nuestro programa de estadísticas - Cómo usar los datos
obtenidos - Cantidad y peso de las
cadenas - Consideraciones sobre la cantidad de
cadenas - Consideraciones sobre el peso de las
cadenas - Factor
cantidad-peso (o ¿cuánto dependemos de nuestras
cadenas de busqueda?) - Optimización de cadenas
potencialmente importantes - Inconvenientes en el análisis de
cadenas - Conclusión
Una "cadena de búsqueda" es lo que escribe un
usuario en un buscador, que a su vez le devuelve una lista de
páginas web que contienen
los vocablos o frases expresadas en la cadena de búsqueda.
Los buenos programas de estadísticas web nos
permiten obtener las cadenas de búsqueda que
emplearon los visitantes que llegaron desde buscadores. Este artículo
describe los mecanismos por los cuales el sistema de estadísticas obtiene la
información, y enseña
al webmaster a obtener el máximo provecho de estos datos.
Cómo obtiene esta
información nuestro programa de
estadísticas
En realidad es el propio buscador (Google, Alltheweb, Altavista,
etc.) quien gentilmente le transfiere esta información a
nuestro sistema de estadísticas. Y lo hace añadiendo un
parámetro y un valor al campo REFERER en la
cabecera HTTP que se nos envía cuando
se accede a nuestra página al hacer click en el link que
aparece en la lista de resultados de la búsqueda.
El campo REFERER normalmente contiene la URL del
documento desde donde –siguiendo un link– se
accedió a nuestras páginas. Nótese que si se
accede a una página escribiendo su URL directamente en el
navegador, el campo REFERER aparece vacío (lo cual es
correcto ya que no hubo ninguna página
referente).
En el caso de los buscadores se introduce una
pequeña variante, que es lo que permite transmitir la cadena
de búsqueda: luego de la URL de la página de resultados
del buscador aparece el signo "?" seguido del nombre de la
variable de búsqueda (que varía de buscador en
buscador, ver Tabla 2), un signo de igual y por último la
cadena de búsqueda codificada como URL (url
encoding).
TABLA 1: ejemplo de transmisión
de una cadena en Google
Como ya mencionamos, el nombre de la variable de
búsqueda es diferente para cada buscador. A
continuación se muestra una tabla con los nombres
de variables de búsqueda
utilizados por los buscadores más populares.
TABLA 2: variables de búsqueda en
diferentes buscadores
En cuanto a la cadena de búsqueda, ésta se
transmite codificada de una forma especial para solucionar la
limitante técnica por la que sólo son transmisibles
caracteres simples (sin tildes, ni "ñ", ni espacios en
blanco u otros signos).
La codificación tipo URL
(url encoding) copia los caracteres normales sin modificarlos, y
aquellos caracteres especiales (la "ñ" por ejemplo) se
sustituyen por un código que comienza con
"%" y sigue con el número ASCII hexadecimal que representa
al caracter que deseamos codificar. El espacio en blanco se
sustituye por "%20" o por el signo "+". A su vez, si apareciese
el verdadero signo "+" se codificaría como "%2B".
Según este protocolo de codificación,
los caracteres que no se codifican (pueden ser representados
directamente) son ";", "/", "?", ":", "@", "=", "#" y "&".
Esto es así ya que este conjunto de caracteres es necesario
para conformar las URLs según el protocolo HTTP.
Ejemplos de codificación de cadenas (url
encoding):
Ejemplo 1:
Este%20es%20un%20ejemplo%20de%20una%20cadena%20codificada
Ejemplo 2: 2%20%2B%202%20%3D%204
Los programas de estadísticas web -dependiendo de cómo los
configuremos- nos pueden mostrar las primeras 30 cadenas de búsqueda (es
decir: las 30 que han sido más empleadas para hallar nuestro
sitio web), o bien un listado conteniendo todas las cadenas con
que fuimos encontrados. Yo personalmente prefiero poder ver TODOS los
resultados, lo que me permite obtener algunas conclusiones
adicionales.
A continuación adjunto un reporte de cadenas de
búsqueda de los primeros días de noviembre de 2004 del
sitio www.estadisticasweb.com:
Accesos Porcentaje Cadena | |||
42 | 6.03% | estadísticas | |
34 | 4.88% | análisis de | |
29 | 4.16% | awstats pasos para instalación | |
28 | 4.02% | geotargeting | |
26 | 3.73% | configurar awstat | |
26 | 3.73% | contador de visitas descargar gratis | |
25 | 6.03% | estadísticas software | |
25 | 3.59% | modalidad | |
24 | 3.44% | gráficas | |
23 | 3.30% | http://www.estadisticasweb.com | |
23 | 3.16% | localización geográfica | |
22 | 3.01% | log | |
21 | 2.87% | programas gratis | |
20 | 2.72% | sistemas | |
19 | 2.58% | análisis de logs | |
18 | 2.58% | análisis de trafico | |
18 | 2.58% | analizador de logs gratuito | |
17 | 2.44% | análisis de log | |
16 | 2.29% | análisis de los logs | |
15 | 2.15% | awstats.pl | |
15 | 2.15% | awstats_buildstaticpages.pl | |
14 | 2.01% | bandera ip | |
13 | 1.86% | bandera país visitante | |
13 | 1.86% | banderas del mundo | |
10 | 1.43% | clientes | |
8 | 1.14% | como acelerar la conexión a | |
7 | 1.00% | como hacer para que de el nombre de la | |
7 | 1.00% | configuración awstats | |
6 | 0.86% | connection hijacking | |
5 | 0.71% | contador | |
5 | 0.71% | contador web gratis | |
3 | 0.43% | descargar contadores de visitas | |
3 | 0.43% | ejemplos de casos para su | |
2 | 0.28% | estadísticas web | |
2 | 0.28% | estadísticas referidos raw | |
2 | 0.28% | gnu | |
2 | 0.28% | identificar el país del visitante con | |
2 | 0.28% | licencia | |
2 | 0.28% | localización geográfica | |
2 | 0.28% | municipalidad de punta del este | |
2 | 0.28% | para que sirve webalizer | |
2 | 0.28% | php obtener datos ip | |
2 | 0.28% | que es licencia fdl | |
2 | 0.28% | que es secuestro | |
… | … | … | |
1 | 0.14% | raw visitas | |
1 | 0.14% | related:www.juntamaldonado.gub.uy/comisiones.htm | |
1 | 0.14% | saber cómo dns | |
1 | 0.14% | secuestro de la pagina | |
1 | 0.14% | secuestro pagina de inicio | |
1 | 0.14% | servidores | |
1 | 0.14% | sistema operativo | |
1 | 0.14% | sistemas basados localización | |
1 | 0.14% | todo sobre contadores | |
1 | 0.14% | todo tipo de información sobre el | |
1 | 0.14% | whois | |
… | … | … |
TABLA 3: fragmento de reporte de
cadenas de búsqueda
Cantidad y peso de las
cadenas
En la tabla anterior se puede apreciar el siguiente
fenómeno: al comienzo de la lista se pueden encontrar las
cadenas mediante las cuales hemos sido más encontrados. En
este caso de estudio aparecen otras muchas cadenas mediante las
cuales se hahallado el sitio pero en pocas ocasiones (1 o 2
veces).
CANTIDAD es el número de cadenas diferentes
mediante las cuales hemos sido hallados.
PESO es la cantidad de veces que ha sido
utilizada una cadena específica.
Este tipo de reporte del ejemplo es el típico de
aquellos sitios web que poseen mucho contenido escrito: los
buscadores han encontrado infinidad de palabras y expresiones que
incorporan en los resultados de las búsquedas más
inimaginables. Consideremos por ejemplo la cadena "todo tipo de
informacion sobre el secuestro". Pero efectivamente, si buscamos
"todo tipo de informacion sobre el secuestro" en Google, aparece
una página de estadísticasweb.com entre los resultados
(en un artículo que trata sobre el secuestro de logs de
referidos).
Consideraciones sobre la
cantidad de cadenas
La cantidad de cadenas de búsqueda tiende a ser
proporcional a la cantidad de contenido escrito (original)
publicado en la web. Una web pequeña (una página de
venta de un producto específico, por
ejemplo) dará también una cantidad pequeña de
cadenas de búsqueda.
Consideraciones sobre el peso
de las cadenas
Las cadenas de gran peso (aquellas que son
indiscutiblemente las más usadas por las personas que
encuentran nuestro sitio en los resultados de buscadores) son de
gran importancia para el flujo de visitas al sitio web. El
webmaster debe prestarles atención, y debe realizar
el máximo esfuerzo para optimizar la posición en los
buscadores en las búsquedas que empean estas
cadenas.
Factor cantidad-peso (o
¿cuánto dependemos de nuestras cadenas de
busqueda?)
He analizado sitios web que apuestan al máximo a un
pequeño conjunto de cadenas de gran peso. En las
estadísticas de estos sitios web se encuentran pocas
cadenas, pero con un peso importante.
Por otro lado, he conocido sitios web que muestran una
enorme cantidad de cadenas de búsqueda diferentes, pero
ninguna de ellas con un peso significante. Este es el perfil de
los sitios web con mucho contenido escrito.
Estos dos modelos son aplicables en
diferentes tipos de páginas web. Si se trata de una página web de venta de
relojes, es natural que debamos optimizar el sitio para cadenas
como "reloj", "Citizen", "Rolex", etc. En este caso el webmaster
debe hacer un importante esfuerzo por posicionar el sitio en los
buscadores para estas cadenas. Pero en el segundo caso (donde la
cantidad es más importante que el peso: por ejemplo en un
sitio de información, o un foro), el webmaster no debe preocuparse por
optimizar ninguna página pensando en los buscadores.
Simplemente agregando más y más contenido verá
cómo aparecen más y más cadenas de búsqueda
en sus reportes estadísticos.
Según el tipo de sitio web que estemos manejando (y
los resultados que deseemos obtener) aplicaremos la estrategia "peso" o la estrategia
"cantidad" en nuestras optimizaciones.
Optimización de cadenas
potencialmente importantes
Dentro de las cadenas de búsqueda más
utilizadas, podemos ver en el ejemplo (Tabla 3) que se halla la
cadena "estadisticas software". Esto significa que están
llegando visitantes que buscaron "estadisticas software" y de
alguna forma, y en algún buscador nos hallaron. Sin embargo,
si buscamos en google "estadisticas software", el sitio
estadisticasweb.com ¡aparece en la posición 396! (NOTA:
esto es así al momento de escribir este artículo, y sin
duda no se mantendrá en esta situación por mucho
tiempo). En otros buscadores
-usando esta misma cadena de búsqueda- ha aparecido en
posiciones igualmente desastrosas. ¡Y sin embargo es pocos
días 25 personas se tomaron el trabajo de recorrer cientos
de resultados hasta encontrar este sitio web!
Aquí hemos encontrado una veta a explotar: este
análisis indica claramente que si optimizamos nuestras
páginas, o si conseguimos más links con las parabras
"estadisticas software" estaremos invirtiendo nuestro esfuerzo en
una acción con resultados
garantzados (hay gente real usando esta cadena de búsqueda y
encontrándonos, a pesar de aparecer en posiciones
alejadas).
Inconvenientes en el
análisis de cadenas
La inmensa mayoría de los programas de
estadísticas web que son capaces de reportarnos las cadenas
de búsqueda con que hemos sido hallados, son a su vez
incapaces de reportarnos en qué buscadores nos han hallado
(y cuantas veces) mediante una cadena determinada. Volviendo al
listado del ejemplo: hasta ahora no he podido darme cuenta en
qué buscador he sido encontrado por un cliente que buscaba "saber
cómo dns". Otro inconveniente
asociado a las cadenas de búsqueda es la su vulnerabilidad
para ser objeto de secuestro de log, con una variante del ataque
a logs de referidos que se explica en mi artículo
"Una nueva modalidad de spam: secuestro del log de
referidos".
El conocimiento de las cadenas de
texto con que nos encuentran
los usuarios que hacen uso de los buscadores, la cantidad de
cadenas diferentes, la importancia de algunas cadenas en
particular, etc. constituye la herramienta de análisis
más potente para la actividad SEO (Search Engine
Optimization) u optimización del posicionamiento en
buscadores.
En el lenguaje SEO, a lo que
nosotros llamamos "cadenas" le llaman "keywords" o
"key-phrases".
Es parte de la interacción natural entre
disciplinas de orientación diferente pero que persiguen un
mismo fin: el éxito de nuestro sitio
web.
Ing. Eduardo González González
(*)
(*) Consultor en Sistemas de Seguridad