Cuidado con los algoritmos
Buenas, pues ya estamos por aquí de nuevo disfrutando especialmente con todo lo que está pasando con Facebook, la manipulación de las redes sociales por parte de diferentes gobiernos y la sorpresa que está generando en la opinión pública.
Siento decirlo, pero mi sorpresa es precisamente que a la
gente le sorprenda o que organizaciones supra nacionales como la UE consideren que deben poner más cuidado y vigilancia en este tipo de prácticas…
Como algunos de los que me leéis desde hace tiempo, ya en 2013 hablé de cómo se estaba usando la propaganda en el Social Media y dí algunos consejos sobre cómo validad un tuit. También escribí en 2015, cómo nuestros partidos políticos ya estaban recurriendo a este tipo de prácticas. Así que... ¿por qué nos sorprende lo de Facebook?
En fin..., como todo en la vida, hasta que no te aprieta el
zapato de forma evidente no te paras. Me ha hecho gracia ver cómo se ha disparado la curva en la búsqueda de información al respecto. Si quieres disfrutar un rato, ve a Google Trends y añade el término “fake follower” últimos 90 días. Está claro que es una de las razones por las que los periódicos están dando cierta cobertura...
Así que nada, os debía un post y he pensado, en
que mis palabras mágicas deberían tocar este tema, o sí o sí.
Eso sí, poniéndome en la
piel del analista, que para eso es este blog.
Imagino que muchos compañeros estarán a estas alturas
intentando aprender a analizar la calidad de los seguidores de las redes sociales,
y especialmente de Twitter o Facebook.
Cuando te adentras en el universo de las redes sociales, el
primer estadio es utilizar herramientas gratuitas que de alguna manera “te lo
den todo hecho”. Así que pensé… “seguramente habrá quien esté recurriendo a dos
de las herramientas gratuitas más conocidas para auditar seguidores en Twitter”.
Algunas de las que más se hablan en los blogs son las siguientes:
- Fake followers Check: https://fakers.statuspeople.com/
- Twitter Audit: www.twitteraudit.com
Está bien, un analista no puede saber de todo, ni tener a su alcance todas las herramientas del mundo para hacer un análisis de redes sociales profundo. Así que hacen una gran labor y son herramientas que ayudan.
Sin embargo, como digo siempre, este tipo de herramientas deben
tomarse con mucho cuidado.
En general cualquier tipo de análisis de las redes
sociales.
¿Por qué? Porque estos análisis se basan en una combinación de
variables que todavía no conocemos muy bien.
Alguien dirá, ¡pero qué dices Eva!
De las redes obtenemos información muy relevante como el alcance, la fecha de
creación de una cuenta, cuánto engagement tiene con sus seguidores, cuánto
contenido comparte, a quién sigue, quién le sigue, de qué habla, qué días
publica, a que hora suele hacerlo, a quién menciona más o menos, si se
geoposiciona, cómo es su avatar, etc.
Todos estos indicadores se pueden
consultar de manera sencilla para Twitter con cualquier herramienta gratuita de
las que andan por ahí.
Es cierto, pero también lo es el hecho de que detrás de lo
que se ve con esos indicadores hay una red real de nodos de la que ya hemos hablado con herramientas como NodeXL de la que di un avance hace
poco.
Hemos hablado de la importancia de cómo determinados algoritmos para el análsis de redes sociales pueden mostrarnos diferentes tipos de centralidad o grados de cercanía, o cuántos cluster hay realmente o si… por
ejemplo…. un cluster es claramente una red de bots.
Como digo, no todo analista tiene que saber de todo, estas
herramientas de validación de usuarios en Twitter nos pueden facilitar cierta
labor de aproximación a la realidad del contexto que se analiza, pero mucho ojo
con decir... “tal cuenta tiene un 23% de seguidores falsos”.
Por simplificar y
ganar credibilidad, este tipo de herramienta emiten un número final que bien
puede hacernos creer que es totalmente “científico” y está basado en un
perfecto análisis del perfil. Sin embargo, como siempre digo para los casos de
la tecnología OSINT, es imprescindible conocer cuáles son las variables que se
utilizan para tal automatismo y si como analistas, las consideramos
suficientes para las conclusiones de nuestros informes.
Por ejemplo, algo que me encanta de Twitter Audit es que no
esconden cómo realizan el análisis. Eso les hace transparentes y mucho más confiables a la hora de tratar su cifra en un informe. Al final de su web dejan muy claro cuáles son las variables que usan, además de que son conscientes de que no es perfecto, pero sí lo suficiente para hacerte una idea de cómo se está comportando el perfil que analizas:
This score is based on number of tweets, date of the last tweet, and ratio of followers to friends. We use these scores to determine whether any given user is real or fake. Of course, this scoring method is not perfect but it is a good way to tell if someone with lots of followers is likely to have increased their follower count by inorganic, fraudulent, or dishonest means.
Así pues, perfecto!
Conociendo cuáles son los indicadores, podremos
evaluar si nos resulta apropiado o no incluir en nuestros análisis el resultado
de las mismas en su totalidad o con ciertas salvedades.
¿A qué me refiero? Lo vas a entender muy rápido con este ejemplo:
- Caso donde el falso es real: imagina un pequeño grupo de perfiles extremistas, por ejemplo de extrema derecha, un pequeño cluster de no más de 20 personas y que usan las redes para difundir su propaganday hablar entre ellos. Lo más probable en estos casos es que los seguidores no tengan muchos seguidores, por tanto bajen de los 500. Por otro lado, los líderes serán los que más hablen, mientras que algunos seguidores tal vez no interactuen demasiado, dilatando el tiempo en que emiten un tuit. En una situación como ésta, es muy posible que un porcentaje de seguidores de un perfil sea falso, cuando en realidad no lo es.
- Caso donde el real es falso. Pero... oh! Sorpresa! También pasa al revés! Por ejemplo, una red de bots, puede estar programada para que hable entre sí, especialmente gracias a las nuevas técnicas de machine learning e incluso deep learning. Los bots están avanzando muy rápido, especialmente con el tirón del Marketing, donde se han convertido en una herramienta buenísima para todo. A cambio, la facilidad de crear red de bots que pasen relativamente desapercibidas a herramientas básicas es cada vez mayor.
Alguna de las otras variables que hay que tener en cuenta siempre:
- El origen de las fotos del avatar: si es una persona hay que comprobar que no se haya robado de internet. Para ello puedes recurrir a algunas de las herramientas que os presentaba en el post de 5 herrramientas para el reverse de imagenes
- A qué hora y qué dias lanza los mensajes: herramientas como Twitonomy te permiten observar un patron de comportamiento al respecto. Si se observa que es los mismos días a las mismas horas, es malo. Sólo un robot hace eso (siempre y cuando no le hayan programado en aleatorio).
- Que reaccione inmediatamente cada vez que hay un mensaje a través de un hashtag: cualquier herramienta de análisis de hastag te permitirá ver si hay algún perfil que reacciona siempre que se usa uno. Incluso en el caso de keywords. Si observas que sólo habla de una temática, es un poco raro también.
- Perfiles que comparten demasiados seguidores: herramientas como Twiangulate te permiten ver si dos perfiles que sospechas que son falsos o una red de bots están conectados. Sólo compáralos y si casi todos los seguidores son comunes, sin duda es un robot ;-)
Como siempre, analiza, analiza y analiza y recurre a pruebas de campo leyendo los perfiles que estás investigando, observando el comportamiento, etc. Aunque no dispongas de grandes herramientas puedes acercarte a la verdad.
Espero que te haya servido de ayuda para mejorar la calidad de las conclusiones de tus informes.
Nos leemos en el siguiente post!