Análisis de Redes Sociales (SNA) con NodeXL - Magic Words of Intelligence

Primer blog #OSINT de España. En línea desde 2011.

Breaking

viernes, 7 de julio de 2017

Análisis de Redes Sociales (SNA) con NodeXL

Analizar las redes sociales mediante clusters


Muy buenas! Lo sé, lo sé, hace horrores que no actualizo el blog…. Os prometo que ha sido totalmente imposible. Este año escolar estoy teniendo más clases, charlas y encargos varios, así que mis fines de semana son prácticamente para estas actividades “extracurriculares”, jejejeje.

Pero bueno, ahora que se acerca el verano se van reduciendo estas actividades y por fin he podido conseguir un poquito de tiempo para actualizar con un nuevo post dedicado al Social Network Analysis (SNA)

Sigo dedicándome a montar unidades de Inteligencia, si echo la mirada atrás, ya casi llevo 4 años haciéndolo! Cómo pasa el tiempo… La cuestión es que en todo este tiempo veo que el día a día de la monitorización no facilita el tiempo necesario para hacer un buen Análisis de Redes Sociales para Inteligencia. Y puesto que fue mi especialidad cuando comencé como técnico analista he pensado que estaría bien dedicar una entrada a facilitar un poco más las cosas.

Sinceramente me da un poco de pena… Porque hay una gran cantidad de información que se puede extraer de las mismas, más allá de los indicadores básicos de alcance, me gustas, o menciones varias.

Es por ello que he pensado poner mi granito de arena en ayudar con una serie de conceptos básicos y herramientas muy sencillas y gratuita/semi-gratuitas que permiten hacer un análisis de Redes Sociales.

¿Lo intentamos? Vamos allá! Para este primer post vamos a comenzar con algo básico y totalmente gratuito.

Mis palabras mágicas de hoy van dirigidas a contarte cómo pintar e interpretar fácilmente un grafo generado de un hashtag en Twitter.

Empecemos con unos pequeños conceptos básicos, que aunque parecen complicados, te van a permitir entender rápidamente de qué va ésto del Análisis de Redes Sociales.

Como todos ya sabéis, una red social se puede resumir como el patrón que surge del resultado de la relación e interacción entre varias entidades, normalmente de la misma naturaleza.  Para el caso que nos ocupa, las entidades van a ser perfiles de Twitter.

Gracias al Social Netowork Analysis se puede:
  • Identificar actores y su comportamiento, como por ejemplo quién es el más influyente, quién el difusor, etc.
  • Conocer grupos de actores y su comportamiento, así cómo se relacionan entre sí y a través de quién.

Ésto tiene múltiples aplicaciones tanto en Inteligencia Económica, Competitiva o de Seguridad y Fraude.

Algunos conceptos que debes conocer:
  • Análisis de redes egocéntricas: es el típico grafo donde en el centro está un único actor y analizamos como se comporta con el resto de la red (especialmente útil para conocer en mayor profundida a un individuo).
  • Análisis de redes completas: se pone el foco de atención en todos los actores y sus relaciones entre sí (éstas son muy interesantes para analizar un escenario completo).
  • Cercanía: las entidades están relacionadas entre sí a través de distancias diferentes. En ocasiones vemos nodos muy pegados los unos a los otros y en otras, están muy separados. Si se dispone de toda la información necesaria para la carga de este dato, en el grafo se podrá analizar la distancia como un indicador más de la relación entre las entidades.
  • Grado: representa el número de relaciones que tiene una entidad con otra. Cuantas más relaciones, más elevado será el grado de centralidad. En este sentido, las matrices de SNA incorporan generalmente el grado de entrada y el grado de salida. Por ejemplo, en una red social, el grado de entrada puede ser el número de veces que se menciona a un perfil determinado; mientras que el grado de salida es el número de veces que dicho perfil menciona a otros. Así pues, analizar de quién recibe las menciones y a quién las hace nos ayudará a comprender mucho mejor las relaciones.
  • Intermediación: muestra qué nodos o entidades son indispensables para la relación directa entre otros dos nodos. Cuantas más veces hace una entidad de puente para la relación entre otras, más necesario será poner la atención sobre ella.

La centralidad, el gran amigo del analista de inteligencia

Cuando se analiza una red completa se suele observar cómo algunas entidades destacan en tamaño por encima de otras. Ésto significa que la inercia de la red se dirige hacia una serie de nodos concretos. Esos nodos, o entidades, serán de especial interés para el analista, porque muestran dónde está la influencia de la red que se analiza.

Ojo, variará especialmente en función del algoritmo que se utilice para componer la red.
Bien, continuemos con el ejercicio. Ahora toca descargarse la plantilla de Excel "NodeXL" que es la que nos permitirá extraer de forma automática los datos que queremos analizar de Twitter.

Descargar e Instalar NodeXL

Descárgatelo gratis desde https://nodexl.codeplex.com


Vale, una vez descargado, encontrar dónde se te ha instalado dependerá de la versión de excel y de Windows que tengas en tu ordenador. Mi recomendación es que utilices el buscador interno de Windows y buscar "NodeXL".

Una vez que lo encuentres, ábrelo y te saldrá algo como ésto:



Verás, que aunque es Open Source, no es totalmente gratis. Para este ejercicio utilizaremos una de las pocas cosas que nos deja hacer gratuitamente. A partir de ahí hay distintos precios según el uso que quieras darle. Comprobarás que algunos no son excesivamente caros.

Seguimos.

Ve a la opción "nodeXLBasic" en el menú del template y pulsa en "Import".


Al desplegar el menú de "Import" verás que puedes extraer datos muy variados de las redes sociales de Facebook, Flikr, Twitter y YouTube.

Nosotros vamos a utilizar la parte gratuita que es la oportunidad de clusterizar un hashtag o una keyword de Twitter. Haz clic en "Twitter Search Network".



Se abre un cuadro que nos permite seleccionar diferentes opciones. Verás que la versión gratis tiene cierta limitación de número de tweets que va a extraer. Por otro lado, puedes acceder a través de una cuenta que tengas de Twitter o solicitar otro tipo de autorización para conectar a la red y poder extraer los datos.

Para este ejercicio vamos a dejar las opciones que vienen por defecto.

¿Y cuál es el hashtag o keyword que deseas monintorizar? Lo añades en la caja de "Search".

Para este ejercicio he pensado en recurrir al hashtag que creamos una pandilla de compañeros hace unos años para empujar la disciplina de Inteligencia en las Redes Sociales: #esINT, que venía a ser algo así como "estudios de Inteligencia" y "España Inteligencia".



Hecho ésto, pulsa el botón de "ok" y verás que se te abre un cuadro de diálogo de Twitter para pedirte autorización. Si le dices que sí, te dará un código que deberás incluir en la ventana que se te abrirá en el NodeXL.

Espera con paciencia hasta que se carguen los datos y posteriormente pulsa en el botón "Refresh Graph". Al lado, verás que puedes desplegar los algoritmos que consideres utilizar para tu análisis. En este ejemplo he aplicado el Harel Koren, pero debes saber que hay otros.


En el mundo del Social Network Analysis existen infinidad de algoritmos que puedes utilizar para representar los grafos y poder analizarlos detalladamente en función de tus necesidades.


Algoritmos básicos que te ofrece NODEXL

  • El algoritmo FR te sirve para analizar con mucho detalle las relaciones entre los nodos, pero sin llegar a clusterizarlos. Este algoritmo, por ejemplo, te facilitará conocer si un perfil de una red social se relaciona con mucha intensidad con otro, o si por el contrario, la relación es esporádica.
  • El algoritmo Harel Koren permite analizar los clúster gracias a su análisis de escala múltiple, que reorganiza los nodos y sus relaciones para que se puedan visualizar mejor. Por tanto, podremos conocer cuáles son los perfiles más relevantes y cómo se relacionan.

Personalizar grafos con NodeXL

1. Mostrar las etiquetas.

Verás que en la pestaña "vértices", la columna "label" está vacía. Sólo tienes que copiar los nombres de la columna "Vertex" y copiarlos aquí para que te aparezcan.

2. Cambiar colores y flechas.

Para mejorar el análisis podemos aplicar una serie de "filtros estéticos" que nos permitirán ver mejor el resultado de lo que hemos analizado.

Para ello sólo tienes que ir a la opción "Graph Options" y parametrizar en función de lo que quieras. Aquí tienes un ejemplo de cómo ha quedado #esINT:



Análisis básico de un cluster con NodeXL

Bien, por último, toca analizar algunas cuestiones desde un punto de vista básico, pero que ya nos da mucha información.

1. Métricas

Pulsa en la opción "Graph Metrics" y selecciona la opción de generar todas las métricas. Después Genéralas.


Verás que en la excel se generan datos que van a parar a la pestaña "Overall Metrics" y a una nueva pestaña que se ha generado con el nombre de "Twitter Search Netwrk Top Items".

En ésta última pestaña tendrás un sumatorio de una serie de métricas muy interesante como por ejemplo cuáles son los tuits más mencionados en el hashtag, otros hashtag asociados, los perfiles más influyentes, etc. Puedes ver un ejemplo breve aquí:




2. Analizar centralidad e interrelaciones.

Respecto a la centralidad, gracias al grafo analizado y dibujado con el algoritmo Harel-Koren podemos ver que de los 2000 tuits de límite de descarga del hashtag #esINT nuestro compañero aingeru074 es sin duda el perfil más influyente, así como el difusor o mantenedor principal del hashtag. ¡Gracias amigo! ¡Sin ti ésto se hubiera muerto!




Respecto a las relaciones, las analizamos según la dirección de salida o de entrada. Las de salida son menciones, que hace el nodo emisor hacia a otro nodo y las de entrada son menciones que otros nodos le hacen a un nodo concreto.

Si analizamos las relaciones de este grafo, podemos destacar que hay unos 3 cluster. El principal es el de aingeru, pero espontáneamente se han creado otras relaciones gracias a la intermediación.

Por ejemplo, aparecen dos cluster a raíz de dos (2) menciones que recibe la cuenta del Instituto de Estudios Estratégicos.  



La conclusión sería que hubo un contenido generado por el IEEE que le resultó relevante tanto a aingeru como a infoheaders. Ambos, lo difundieron con el hashtag #esINT y eso facilitó que interactuaran sus dos cluster, por lo que esa sería la única relación en este caso. 


Espero que te haya resultado muy interesante y que te animes a probar! :-)