Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Desarrollo de Herramientas para Automatizar la Extracción de Datos (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

Uso de APIs
Google + API:

Su API está organizada por tipo de recursos:

Personas: Es una lista de recursos de una persona.
Nombre, Imagen de perfil, URL de perfil, Email
Actividades: Es una nota que un usuario postea en su muro.
Id, imagen, nombre, fecha publicación, contenido,
Comentarios: Es una respuesta a una actividad.
Id, contenido, fecha publicación.

Monografias.com

Retos de los Crawlers
Las APIs oficiales de las redes sociales presentan limitaciones.
Es necesario el uso de nuevas técnicas.
Los Crawlers son la solución perfecta.
Permiten encontrar y descargar nueva información automáticamente.

Monografias.com

Retos de los Crawlers
Escala: Millones de páginas en internet.
Contenido nuevo cada segundo.
No es fácil determinar el número de páginas web en un sitio web.

Monografias.com

Retos de los Crawlers y NodeFriends
Formas de extracción:
Extracción sobre una página simple HTML.
La extracción sobre una página HTML que necesite autentificarse con credenciales.

La extracción de la información sobre páginas con contenido dinámico.
Contienen programas scripts, que requieren ejecutarse para conocer el contenido de la página.

Monografias.com

Retos de los Crawlers y NodeFriends
NodeFriends – desarrollo UDLAP:

Se cuenta con un Crawler con las siguientes características:

Permite extraer la listas de amigos de Facebook, iniciando por un usuario semilla, detectando patrones y procesando información extraída.

Permite almacenar la información en dos archivos CSV (nodos y aristas)

Monografias.com

Retos de los Crawlers y NodeFriends
Metodología NodeFriends para extracción de la red de amigos de Facebook:
Usuario semilla
Paso 1: Exploración de lista de amigos.
Paso 2: Extracción de la información.
Paso 4: Almacenamiento de información.
Paso 3: Procesamiento y clasificación de la información.

Monografias.com

Retos de los Crawlers y NodeFriends
NodeFriends:
Explora y extrae la lista de amigos existentes a partir de un usuario semilla.
Para la selección de la lista de amigos se declararon patrones de expresiones regulares los cuales se comparan directamente con el código HTML de cada página de amigos.
Almacena la lista de amigos en archivos CSV (separados por coma).

Monografias.com

Retos de los Crawlers y NodeFriends
Tecnologías empleadas de Crawling, para implementar NodeFriends:

HtmlUnit: Librería que simula un navegador Web sin interfaz, permite manipular a un alto nivel de sitios Web
http://htmlunit.sourceforge.net/

Escrita en Java.
Permite el llenado y envío de datos a formularios mediante simulación de clics en hiperenlaces (autenticar).
Extraer código fuente de páginas Web.
Visitar cualquier página que contenga código JavaScript.

Monografias.com

Uso de NodeFriends
NodeFriends:
NodeFriends es una aplicación desarrollada en Java que permite extraer la lista de amigos, a partir de una cuenta semilla.
Descarga la lista de amigos de forma recursiva hasta el nivel de exploración indicado.
Genera los archivos para poder analizar la red con cualquier visualizador de redes.

Monografias.com

Uso de NodeFriends
Requisitos de NodeFriends:

Tener instalada la máquina virtual de Java.
Versión 8 o superior.

Su descarga es gratuita.
https://java.com/es/download/

Monografias.com

Uso de NodeFriends
Ejecución de NodeFriends – WINDOWS

Descomprimir el archivo “NodeFriendsV0.1.zip”
Abrir el archivo “Windows.bat”

Monografias.com

Uso de NodeFriends
Ejecución de NodeFriends – Linux

Descomprimir el archivo “NodeFriendsV0.1.zip”

Monografias.com

Uso de NodeFriends
Ejecución de NodeFriends – LInux:
Abrir una consola de comandos.
Introducir el comando “java –jar ”
Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.

Monografias.com

Uso de NodeFriends
Ejecución de NodeFriends – MacOSX:

Descomprimir el archivo “NodeFriendsV0.1.zip”

Monografias.com

Uso de NodeFriends
Ejecución de NodeFriends – Mac OS:
Presionar la combinación de teclas “CMD+Espacio” e ingresar la palabra “terminal” y presionar Enter.
Introducir el comando “java –jar ”
Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.

Monografias.com

Uso de NodeFriends
Ingresar el email de la cuenta de Facebook.
Ingresa la contraseña de la cuenta de Facebook.
Ingresa el nivel de exploración (1-Amigos, 2-Amigos de mis Amigos, 3-Amigos los Amigos de mis Amigos, …).

Monografias.com

Uso de NodeFriends
Obtener Datos de una cuenta personal de Facebook:

Presionar el botón «Obtener Datos» para comenzar a descargar los datos de Facebook.
Esto puede tardar un poco, dependiendo el nivel de exploración seleccionado. ingresado.

Monografias.com

Uso de NodeFriends
Datos Generados:
Al concluir la descarga de datos serán creados 2 archivos, uno contendrá los nodos (Amigos) y otro los enlaces (Amistades).

Archivos Generados
Archivo de nodos
Archivo de aristas

Monografias.com

Visualización de resultados de NodeFriends
Visualización en Gephi
Para iniciar debemos abrir la herramienta, la podemos encontrar en Inicio>Todos los Programas>Gephi.

Iniciar nuevo proyecto:

Monografias.com

Visualización de resultados de NodeFriends
Importar Datos a Gephi
La herramienta Gephi permite crear los nodos y las relaciones a partir de archivos parametrizados (CSV).
Importar: Ir a la sección «Laboratorio de datos» en esta sección se podrán ver todos los nodos y relaciones creadas.

Monografias.com

Visualización de resultados de NodeFriends
Importar Datos a Gephi:

Importar Nodos: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de nodos, presionar siguiente y luego presionar terminar.

Monografias.com

Visualización de resultados de NodeFriends
Importar Datos a Gephi:

Importar Relaciones: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de aristas, presionar siguiente y luego presionar terminar.

Monografias.com

Visualización de resultados de NodeFriends
Visualizando los Datos con Gephi:

Para visualizar la red, debemos ir a la sección «Vista General», donde podremos visualizar una red, aun sin una apariencia estética.

Monografias.com

Visualización de resultados de NodeFriends
Detección de Comunidades:
La detección de comunidades se realiza con el algoritmo de modularidad el cual ventana de «Estadísticas».
Cambiar el color de los nodos a partir de la comunidad a la que pertenece: En la parte izquierda «Apariencia>Nodos» seleccionar el atributo de «Modularity Class» y presionar en el botón Aplicar.

Monografias.com

Visualización de resultados de NodeFriends
Detección de Comunidades en Gephi:
La modularidad le dará un aspecto como el de la siguiente imagen.
Cada color representa una comunidad distinta.

Monografias.com

Visualización de resultados de NodeFriends
Visualización de Grado Vector Propio
El algoritmo de vector propio lo aplicamos en la sección de la derecha «Estadísticas».
En la parte izquierda en la sección de Apariencia>Tamaño>Nodos>Atributo seleccionar el atributo de «Eigenvector Centrality» y presionar en el botón Aplicar.

Monografias.com

Visualización de resultados de NodeFriends
Visualización de Grado Vector Propio.

Visualizar el tamaño de los nodos dependiendo del grado de vector propio que tiene cada nodo, mostrando nodos más grandes dependiendo del grado calculado:

Monografias.com

Visualización de resultados de NodeFriends
Distribución de los Nodos:

Gephi permite aplicar algoritmos de distribución, para dar un aspecto más estético a la red y así poder analizarla mejor. Para aplicar el algoritmo de distribución solo basta ir a la sección de distribución y seleccionar el algoritmo deseado.

Monografias.com

Visualización de resultados de NodeFriends
Distribución ForceAtlas2:
Es un modelo de atracción lineal y repulsión lineal con unas pocas aproximaciones.
Ventana “Distribución” seleccionar Forcetlas2.
Configurar su atributos «Evitar Solapamiento» y presionar ejecutar.

Monografias.com

Visualización de resultados de NodeFriends
Resultados de aplica la Distribución ForceAtlas2:
Genera un grafo que puede ser analizado más fácilmente.

Monografias.com

Visualización de resultados de NodeFriends
Mostrar Etiquetas de Nodos:
Ventana “Grafo”, pestaña “Etiquetas”.
Habilitar la opción “Nodo”.

Monografias.com

Visualización de resultados de NodeFriends
Mostrar Etiquetas de Nodos

Monografias.com

Visualización de resultados de NodeFriends
Exportar Grafo:

Gephi permite exportar el grafo a una imagen. En el módulo de previsualización podremos configurar diferentes parámetros.

Monografias.com

Visualización de resultados de NodeFriends
Exportar Grafo

Monografias.com

Analizando el grafo
Se puede apreciar qué personas son más influyentes (Tamaño del nodo), también se puede identificar a las personas que comparten un patrón de similitud (Color del nodo).

Monografias.com

Analizando el grafo
Se puede visualizar el impacto de una persona dentro de una red, el cual posibilita la conexión con otros miembros de la red y sin él no sería posible llegar a otros nodos (personas).

Monografias.com

Analizando el grafo
Existen personas en la red que tienen una mayor capacidad para controlar la difusión de un mensaje, esto puede ser aprovechado en una campaña de marketing.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter