Visualización de la evolución de una red social generada por weblogs
- I.
Introducción - II. Estado del
arte - III. Mapas
auto-organizativos de kohonen - IV. Evolución de
las comunidades de weblogs - V.
Conclusión - Bibliografía
- Notas
ABSTRACT
Los weblogs son
sitios web creados
usando sistemas de
gestión
de contenidos, de fácil utilización. Esto hace que
sean dinámicos, y como pueden ser editados por una o
varias personas, sus enlaces tienden a reflejar las relaciones
sociales entre ellas. El estudio de estas redes sociales permite
descubrir nuevas estructuras
sociales, así como su proyección al futuro. En este
artículo proponemos utilizar mapas
autoorganizativos para visualizar la red social de un conjunto de
weblogs alojado en un mismo sitio, Blogalia, y su
evolución a lo largo de diferentes periodos.
Palabras clave:
cibersociedad
contenidos
grupos de
discusión
hipertexto/hipermedia
interactividad
Los weblogs están adquiriendo cada vez mayor
importancia convirtiéndose en un recurso alternativo de
información. Cualquier persona desde
cualquier parte del mundo puede contar sus experiencias
personales y lo que está viendo en ese mismo instante a
través de estos weblogs. En todo el mundo hay millones, y
según Perseus (http://www.perseus.com/blogsurvey/thebloggingiceberg.html),
se han creado 4.12 millones de blogs
sólo a través de Blog-City, BlogSpot, Diaryland,
LiveJournal, Pitas, TypePad, Weblogger and Xanga. En España el
crecimiento de los blogs en el último año ha sido
espectacular. Según el blogómetro, alojado en
Blogalia (http://blogometro.blogalia.com),
que visita diariamente miles de bitácoras españolas
y genera un listado con las noticias
más enlazadas, el número de bitácoras de su
lista es de alrededor de 26000 en octubre de 2004, conteniendo
varios cientos de miles de enlaces.
Una red social creada en torno a un weblog
está formada por los autores o editores de las weblogs, la
gente que envía comentarios a las historias, y silenciosos
pero constantes lectores que pueden o no tener su propio weblog.
un weblog puede no tener importancia por sí misma, sin
embargo no se puede despreciar su relevancia como parte de una
red social (Newman, 2000). Las redes sociales son un tipo de
redes complejas (Albert&Barabási, 2002), en las que
los nodos son usualmente entidades sociales (personas, grupos de
personas), y los enlaces representan las relaciones entre ellos.
Usualmente las redes sociales tienen una estructura
interna, así que los weblogs se pueden ver como
componentes de un conjunto de comunidades, cada uno con sus
propios ídolos, axiomas, enemigos y jerarquías. Las
comunidades que se crean no están bien definidas, ya que
un weblog en concreto puede
pertenecer a varias comunidades a la vez, aunque la
mayoría de los weblogs (como por ejemplo los weblogs de la
comunidad
hispano parlante (Merelo et al., 2003)) están conectados
entre ellos mediante un conjunto finito de enlaces.
El interés en
el estudio de las redes sociales se debe a su importancia dentro
de la gestión del
conocimiento. La gestión del conocimiento
(Alvarez Martínez, 2003) consiste en la creación,
almacenamiento y
comunicación de conocimiento
por medio de comunidades de personas y organizaciones
que tienen diferentes niveles de experiencia pero que comparten
intereses y necesidades similares. Dado que las redes sociales
permiten crear, almacenar y compartir conocimientos, es evidente
la importancia que tiene la identificación de comunidades
dentro de la gestión del conocimiento, y por tanto la
identificación de comunidades dentro de los weblogs como
caso particular. Los weblogs constituyen una herramienta para el
aprendizaje
colaborativo ya que hay una red social que comparte
conocimientos y adquiere otros nuevos, proceso que se
ha denominado construcción social del conocimiento
(Cobos et al., 2002).
En muchos casos las comunidades son multilingües;
dos weblogs fuertemente relacionadas, por ejemplo escritas por el
mismo autor, pero en distintos idiomas (por ejemplo, español y
catalán ó español e inglés)
no estarán relacionados si sólo se tiene en cuenta
su contenido. En principio, se podrían usar los
meta-contenidos con protocolos como
Friend of a Friend (Amigo de un Amigo FOAF, información
disponible en http://www.foaf-project.org),
como arcos de la red, pero esto no está muy extendido, y
representa sencillamente una relación binaria (eres FOAF o
no), mientras que los enlaces tienen cierta calidad
cuantitativa (enlazar varias veces es distinto a enlazar
sólo una vez).
En este trabajo, se
han escogido los enlaces en vez de el contenido ya que son
fácilmente analizables a partir del documento fuente; esta
elección permite una representación de cada blog
con pocas dimensiones, que se realizará mediante un vector
con tantos componentes como blogs haya en el grupo de
estudio. Esto es posible sólo si el número de
sitios relevantes es menor que el vocabulario necesario para
representar los mismos sitios en un modelo de
espacio vectorial. Esto también es unívoco: un
enlace identifica claramente un origen (el weblog donde se ha
encontrado) y un destino (la URL). Los enlaces representan una
relación real entre los blogs que unen, lo que implica
que, al menos, uno ha leído al otro, lo que demuestra un
tipo de relación de comunidad.
Las redes sociales se crean leyendo o escribiendo en un
blog o comentando otros. Es cierto que puede haber otros miembros
en la comunidad que no estén cubiertos con este método
(por ejemplo, lectores leales o gente que hace comentarios para
participar); también, un miembro de la comunidad
podría enlazar con otro por medio de un blog que no
pertenezca al conjunto de blogs bajo estudio (Blogalia, en este
caso); sin embargo, no intentamos decir la última palabra
sobre la estructura de las comunidades en la blogosfera (como
usualmente se denomina a todos los weblogs). Nuestra
intención es esbozar un método para identificar
comunidades considerando los hiperenlaces como indicadores de
una relación entre miembros de una misma
comunidad.
El contenido (distancia en el espacio vectorial) o los
enlaces (número de enlaces, o existencia o no de enlaces)
se usan para crear un gráfico del conjunto de sitios bajo
estudio; consecuentemente, una comunidad se puede definir con
alguna medida que distinga unos sitios de otros. Hay varias
estructuras posibles que se pueden considerar comunidades:
cliques, o conjuntos de
sitios que enlazan entre ellos, bipartite cliques,
conjuntos de sitios que enlazan todos a un conjunto de sitios
diferente (Caldarelli, 2002), k-cores o facciones,
conjuntos de sitios conectados al menos a otros k sitios
del grupo, o núcleos bipartitos, que incluyen tanto
al que conecta como a los sitios conectados.
La mayoría de estas estructuras se pueden
calcular y visualizar con programas como el
Pajek (1) o
UCINET (2) ,
pero requieren varios parámetros iniciales como el
número k de enlaces o el número de
núcleos en los que se quiere dividir el conjunto original.
Todas las definiciones anteriores son válidas y se pueden
usar en varios casos. Sin embargo, algunas de ellas son
restrictivas en el sentido de que sólo pueden tener en
cuenta relaciones binarias, y no el peso de los enlaces
(número de veces que se han utilizado) o la dirección. En nuestro caso, la
dirección es importante: usualmente, algunos blogs que han
sido "apuntados" pueden no enterarse de ello
(3) . Un
problema adicional es que la mayoría de los conceptos
definidos anteriormente no crean una imagen visual
clara de la comunidad que describen.
Hay una gran variedad de herramientas
para visualizar redes, en la Tabla 1 se muestran algunas de
ellas. En este artículo se ha escogido un mapa
auto-organizativo (Self-Organizing Map, SOM) porque es un
algoritmo que
da lugar a una clasificación no supervisada y permite
visualizar las proyecciones de un espacio multidimensional en un
mapa bidimensional resaltando las relaciones ocultas entre los
conjuntos de datos. Para ello
hemos utilizado MATLAB.
III. MAPAS AUTO-ORGANIZATIVOS
DE KOHONEN
Kohonen propuso originalmente su mapa auto-organizativo
(Kohonen, 1990), basándose en el trabajo
previo realizado por von der Malsburg (1973), como un modelo para
auto-organizar los dominios visuales del cerebro. El SOM
de Kohonen está formado por un conjunto de vectores
n-dimensionales, dispuestos en dos dimensiones; por ejemplo, en
la Figura 1a se representa un SOM hexagonal, y en la Figura 1b,
un SOM rectangular, ambos formados por 16 x 9 neuronas. Una
vecindad de tamaño n de un vector se define como el
conjunto de vectores del SOM cuyo índice difiere en menos
de n. El SOM de Kohonen, como muchos otros métodos
heurísticos, tiene que ser entrenado con el
conjunto de datos que se van a representar. El proceso de
entrenamiento
consta de los siguientes pasos:
- Se escoge un nuevo vector del conjunto de
entrenamiento (conjunto de datos que se quiere modelar)
aleatoriamente. - Se obtiene el vector más cercano en el SOM,
que de denomina ganador. - Todos los vectores en la vecindad del ganador se
actualizan de forma que queden más cerca (un factor
alfa) del vector de entrada. - Se actualizan el tamaño de la vecindad y
alfa. - Después de un número predeterminado de
iteraciones se detiene el proceso.
La auto-organización en el SOM surge porque
sólo las vecindades, no todo el mapa, se actualizan cada
vez que llega un nuevo vector, y porque el proceso de aprendizaje se
hace de forma no supervisada. Esto es lo que caracteriza al SOM
de otros algoritmos de
clasificación como k-means (Kanungo et al., 200), pero, en
este caso, las clases también se ordenan
topográficamente, de forma que los vectores que
están más cerca en el espacio original
n-dimensional se proyectan en vectores que están
más cercanos en SOM bidimensional. Las principales
aplicaciones de los mapas auto-organizativos son:
- Visualización: la proyección de
un espacio multi-dimensional en un mapa bidimensional destaca
las relaciones ocultas entre los datos (Bock,
1996). - Identificación de clase: al contrario
que otros algoritmos como el k-means, cada clase
está representada por varios vectores. - Interpolación o función
de modelado: no es especialmente adecuado para este fin,
pero si cada vector de entrenamiento v tiene un valor
asignado f(v), estos valores se
pueden proyectar en el SOM, y los valores
desconocidos se deducen a partir de estos. Esto es
especialmente útil si f(v) es realmente un
vector, o si puede faltar información en el conjunto de
entrada (Unneberg et al., 2001). - Clasificación: si el conjunto original
de datos se ordena en varias clases, cada vector del mapa se
puede considerar con una clase y ser usado por tanto para
clasificar. Incluso si no es tan eficiente clasificando como
otros algoritmos de redes
neuronales, el hecho de que pueda manejar valores ausentes,
hace que sea más útil en estos casos. La
calibración se puede llevar a cabo de varias formas
(utilizando el criterio Bayesiano, por ejemplo), o con
aprendizaje supervisado adicional utilizando algoritmos como el
LVQ (Learning Vector Quantization) (Kohonen, 1995) para mejorar
sus prestaciones. - Cuantificación de vectores: como el
mapa es un modelo de un conjunto de datos, sus miembros se
pueden utilizar para representar este conjunto de datos, y cada
vector puede ser cuantizado asignándole su representante
más cercano el mapa.
Hay muchos paquetes software que implementan el
SOM, como el SOM Toolbox para Matlab, o el paquete creado por el
propio equipo de Kohonen: el SOM Toolbox para Matlab 5
(disponible en http://www.cis.hut.fi/projects/somtoolbox/).
Este paquete ofrece una serie de funciones que
permiten hacer un preprocesamiento de los datos, crear,
inicializar y entrenar el SOM, visualizar de distintas formas los
resultados, así como, otra serie de funciones auxiliares
(como etiquetar datos, obtener la matriz de
distancias, etc) y de clasificación y clustering. Todos
los resultados de este artículo se han obtenido y
representado con este paquete.
Previamente, el SOM se ha usado por los autores para
visualización de la comunidad de la que estamos tratando
ahora, pero de forma estática
[21,22], teniendo en cuenta todos los enlaces generados a lo
largo del tiempo.
IV. EVOLUCIÓN DE LAS
COMUNIDADES DE WEBLOGS
Los datos utilizados en este trabajo son los weblogs
alojados por Blogalia (http://www.blogalia.com).
Blogalia contiene alrededor de 200 blogs, de los cuales
sólo 162 tienen o reciben enlaces de otros blogs. Estos
162 blogs son los que se han utilizado en este estudio. En
concreto, se han utilizado las historias (excluding information
in page templates, or dynamic news-feeds, for instance)
publicadas en Blogalia desde Septiembre de 2003. Hay alrededor de
11000 historias que contienen unos 17000 enlaces, de los cuales,
a penas una cuarta parte son enlaces a otros miembros de la
comunidad. Este conjunto de enlaces es el que se ha utilizado
como base de este trabajo. Cada weblog se ha representado con un
conjunto de enlaces a otros miembros de Blogalia, con lo que hay
blogs y páginas
web que no se tienen en cuenta.
Como consecuencia de esta decisión, no se han
tenido en cuenta otros weblogs, lo que implica que algunos sitios
más cercanos a algunas bitácoras alojadas en
Blogalia que muchos de los habitantes del sitio no han
sido tenidos en cuenta; sin embargo, en este artículo,
pretendemos descubrir comunidades dentro de Blogalia, y no
todas las comunidades que incluyen webs alojadas en
Blogalia.
Cada blog se representa con un vector cuyas componentes
son el número de veces que ese blog enlaza con el resto de
blogs. Por ejemplo, si el blog http://fernand0.blogalia.com/
correspondiente al vector i-ésimo enlaza 7 veces con
el blog http://atalaya.blogalia.com/correspondiente
al vector j-ésimo, el elemento correspondiente (i, j)
dentro del vector valdrá 7. Se han considerado de forma
separada los enlaces entrantes y salientes, y 5 grupos de datos,
cada uno de los cuales corresponde a los enlaces de cada blog
consultados cada 4 meses (cuatrimestralmente). Es decir, el
primer grupo corresponde a los enlaces de los blogs de los cuatro
primeros meses, el segundo a los enlaces de esos mismos blogs
acumulando 4 meses adicionales (en total 8 meses), y así
sucesivamente. Para poder
distinguir visualmente los datos correspondientes a cada periodo
se han etiquetado anteponiendo al nombre del blog 1, 2, 3, 4 o 5,
según el periodo al que correspondan los datos. Por
ejemplo, 1atalaya corresponde al vector atalaya del periodo 1,
2atalaya se refiere al vector atalaya del periodo 2, y así
sucesivamente.
En una primera parte del experimento se han utilizado
todos los datos juntos (los cinco grupos, previamente
normalizados) para entrenar el SOM. Una vez obtenido el mapa de
salida del SOM, se han proyectado sobre él cada grupo de
datos de forma independiente, para poder ver como van
evolucionando. En las Figuras 2 a 6 se muestran las proyecciones
de cada grupo de datos (en la Figura 2 el periodo 1, en la Figura
3 el periodo 2, etc.) sobre el SOM. En ellas, cada
hexágono negro tiene un tamaño proporcional al
número de veces que cada unidad del mapa ha sido el BMU
(Best-Matching Unit) del conjunto de datos.
Puede observarse que inicialmente la mayoría de
los blogs están en la parte superior central (el
hexágono negro mayor). Todos los blogs de este
hexágono tienen sus componentes a 0, es decir, no tienen
ningún enlace entrante. A medida que transcurre el tiempo
va disminuyendo el número de blogs que caen en ese
hexágono ya que van teniendo más enlaces. Es decir,
los blogs se van expandiendo por el mapa a medida que va
transcurriendo el tiempo ya que van recibiendo más
enlaces.
También se puede ver como, a medida que
transcurre el tiempo, los blogs se van desplazando de la parte
superior central hacia la parte inferior y hacia los extremos,
principalmente al izquierdo.
Para ver este efecto con más detalle se han
escogido algunos blogs y se ha visto su evolución a lo
largo de los distintos periodos. Se han elegido aquellos blogs
con más de 100 enlaces entrantes en el periodo 5. En la
tabla 1 se muestra el
número de enlaces de cada blog en cada periodo de
tiempo.
En la Figura 7 se muestra la evolución de los
blogs más enlazados. Éstos se van desplazando hacia
abajo y hacia los extremos.
En la Tabla 2 se han escogido los blogs con más
enlaces salientes. También se han escogido aquellos con
más de 100 enlaces salientes en el periodo 5.
En la Figura 7 se han proyectado sobre el mapa alguno de
los vectores escogidos en la Tabla 2. En todos los casos se
produce un desplazamiento de la zona superior del mapa a la zona
inferior y hacia los extremos. También se puede ver que se
van formando grupos, es decir, hay ciertos blogs que terminan en
el mismo hexágono, aunque la transición de cada uno
por el mapa sea distinta. Así, tenemos que atalaya,
fbenedetti, jkaranka y eledhwen van al mismo hexágono,
mientras javarm, rvr y verbascum forman otro grupo y por
último pawley y jaio-la-espia formarían
otro.
La Tabla 3 contiene los blogs con más enlaces
salientes. También se han escogido en este caso aquellos
con más de 100 enlaces salientes en el quinto
periodo.
En la Figura 8 se muestran las proyecciones en el mapa
de algunos vectores de la Tabla 3. Se puede observar que se
produce un movimiento
desde la parte superior del mapa hacia la parte inferior, y
más en concreto hacia los extremos. También se
puede apreciar la formación de grupos, es decir, algunos
blogs terminan en el mismo hexágono aunque el camino
seguido hasta él sea diferente. Por ejemplo, atalaya,
fbenedetti, jkaranka and eledhwen forman un grupo.
Se ha propuesto un procedimiento
para identificar comunidades dentro de la www considerando los
hiperenlaces como indicadores de una relación entre
miembros de una misma comunidad. Este trabajo trata sobre
weblogs, páginas web que contienen enlaces a otros
sitios web que tratan sobre un determinado tema o que se basan en
algún otro criterio. Los weblogs generan relaciones entre
sus usuarios dando lugar a redes sociales. Estudiar la
evolución de estas redes sociales nos permite descubrir
estructuras sociales, así como su proyección de
futuro.
Para identificar y visualizar las comunidades que surgen
se han utilizado los mapas auto-organizativos (SOM) como una
herramienta potente que genera una clasificación no
supervisada y permite la visualización de las proyecciones
de un espacio multi-dimensional en un mapa bidimensional,
destacando las relaciones ocultas entre los miembros del conjunto
de datos. Para ello se ha utilizado el paquete MATLAB SOM
Toolbox.
El conjunto de trabajo de sitios webs está
formado por 162 weblogs (de 200) alojados en Blogalia
(http://www.blogalia.com/).
En este estudio se han utilizado todas las historias (excluyendo,
por tanto, información en las plantillas de la
página, o información de otras páginas
incluida automáticamente) publicadas en Blogalia hasta
Septiembre de 2003; hay alrededor de 11.000, y contienen sobre
17.000 enlaces.
Mostramos empíricamente como el método
propuesto es válido para identificar comunidades y
analizar su evolución a lo largo del tiempo. En concreto,
se puede observar claramente las trayectorias y la
expansión de los blogs a través de SOM a medida que
transcurre el tiempo y van recibiendo más enlaces.
Está claro que los blogs se clasifican o forman
comunidades a pesar de seguir distintas trayectorias.
Este artículo ha sido apoyado en parte por el
proyecto
TIC2003-09481-C04 del Ministerio español de Educación, Ciencia y
Deporte.
También queremos expresar nuestro agradecimiento a
Víctor Ruiz, por su apoyo durante su elaboración, y
su continuo trabajo sostenido la comunidad de
Blogalia.
- M. Newman, "Small worlds: The structure of social
networks," condmat/0001118. [Online].Available:
citeseer.nj.nec.com/514903.html - J. J. Merelo, F. Tricas, and V. Ruiz, "Measuring the
spanish blogosphere," in Proceedings of Towards New Media
Paradigms (COST A20 Conference), Pamplona, Spain, 27-28
June, 2003, available from http://geneura.ugr.es/˜jmerelo/atalaya/newmedia/. - R. Albert and A. Barabasi, "Statistical mechanics of
complex networks," 11 Reviews of Modern Physics, vol.
74, no. 47, 2002, cond-mat. [Online]. Available:
citeseer.nj.nec.com/499527.html - Rafael Alvarez Martínez, "Introducción a la realización de
eventos
académicos en línea", Simposio
Internacional de Computación en Educación
Aguascalientes, México, Octubre 2003.
http://www.somece.org.mx/simposio2003/talleres/ram/gestion.html - H. H. Bock, "Simultaneous visualization and
classification methods as an alternative to Kohonen’s
neural networks," in Classification and Multivariate
Graphics: Models, Software and Applications, ser.
Weierstrass-Institut f¨ur Angewandte Analysis und
Stochastik, H.-J. Mucha and H.-H. Bock, Eds., Berlin, 1996, no.
Report No. 10, pp. 15–23. - Ruth Cobos, Jose A. Esquivel y Xavier
Alamán, Herramientas informáticas
para la gestión del conocimiento. Un estudio de la
situación actual. Novática nº 155,
Enero-Febrero, 2002: pp. 20-26. - G. Caldarelli, "Introduction to complex networks,"
Proceedings of the 7th Conference on Statistical and
Computational Physics Granada, 2002, online at Proceedings of
the 7th Conference on Statistical and Computational Physics
Granada (2002). - E. Dumbill, "Finding friends with xml and rdf,"
Available from
http://www-106.ibm.com/developerworks/xml/library/x-foaf.html
, Jun3 2002. - T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D.
Piatko, R. Silverman, and A. Y. Wu, "The analysis of a simple k
-means clustering algorithm," in Symposium on Computational
Geometry, 2000, pp. 100–109. [Online]. Available:
citeseer.nj.nec.com/kanungo00analysis.html - T. Kohonen, "Learning vector quantization," in The
Handbook of Brain Theory and Neural Networks. Cambridge,
Massachusetts: The MIT Press, 1995, pp.
537–540. - T. Kohonen, "The self-organizing map," Procs.
IEEE, vol. 78, p. 1464 ff., 1990. - C. von der Malsburg, "Self-organization of
orientation sensitive cells in the striate cortex,"
Kybernetik, no. 14, pp. 85–100, 1973. - J. J. Merelo-Guervós, B. Prieto, A. Prieto, G.
Romero, P. Castillo-Valdivieso, and F. Tricas, "Clustering
web-based communities using self-organizing maps," March 2004,
accepted, IADIS conference on Web Based Communities, available
from http://geneura.ugr.es/~jmerelo/papers/72.pdf. - J.-J. Merelo-Guervos, B. Prieto, F. Rateb, and F.
Tricas, "Mapping weblog communities," December 2003, preprint
Available from http://arxiv.org/abs/cs/0312047. - P. B. D. Unneberg, J. J. Merelo, P. Chacón,
and F. Morán, "SOMCD: a method for evaluating protein
secondary structure from UV circular spectra," Proteins,
vol. 42, no. 4, pp. 460–470, 2001, draft available from
http://geneura.ugr.es/pub/papers/somcd.ps.gz. Demo disponible
en http://somcd.geneura.org.
[1] – Pajek es un programa para
Windows que se
puede descargar gratuitamente en
http://vlado.fmf.uni-lj.si/pub/networks/pajek/.
[2] – UCINET es un programa para Windows que se
puede descargar en http://www.analytictech.com/
[3] – Es muy probable que los autores de los
blogs sean conscientes de los enlaces entrantes, y hay
herramientas, como http://technorati.com/ o registros de
enlaces entrantes (referrer logs) que permiten al autor
controlarlos.
Este artículo es obra original de
Juan Julián Merelo; Fernando Tricas García;
Beatriz Prieto y su publicación inicial procede del II
Congreso Online del Observatorio para la CiberSociedad:
http://www.cibersociedad.net/congres2004/index_es.html"
Juan Julián Merelo; Fernando Tricas
García; Beatriz Prieto
El contenido del presente trabajo está gobernado
por la siguiente Licencia de Creative Commons: ver
http://creativecommons.org/licenses/by-nc/2.0