Este verano, pensando en cuál podría ser mi próxima entrada del blog, he recordado que de forma repetitiva en mis clases los alumnos me han preguntado qué es eso del “peso semántico”. Cuando pregunto si han visto las nubes de tag me suelen responder que las conocen, pero sólo para una cuestión estética o de los Social Media "freak".
¿Que tal si lo llevamos un poco más allá? Mis palabras mágicas de hoy van sobre cómo utilizar las nubes de tag para analizar el peso semántico de un mensaje.
Para un analista de inteligencia, ya sea OSINT o no, conocer qué palabras tienen más peso en un mensaje puede ser clave para entender y descubrir otros puntos de vista que estaban ocultos tras el mensaje aparente.
Muchas herramientas de nubes de tags contabilizan de forma automática las palabras que hay en un texto y muestran la cantidad en forma de densidad. Esto significa que aquellas palabras más utilizadas aparecen más grandes frente a las que menos se utilizan.
Nos sorprenderíamos al ver cuántas veces un mensaje que supuestamente habla sobre X, son justo las palabras que definen a X las menos utilizadas y realmente es más recurrente en la temática Y. Esto nos facilita conocer, por ejemplo, si se está haciendo propaganda y cuál es el verdadero mensaje que se quiere difundir, en definitivas cuentas puede ayudarnos a conocer cómo se pretende influir.
Como siempre, en nuestra disciplina podemos encontrar numerosas herramientas, gratuitas y de pago. Por mi parte os propongo algunas gratuitas que pueden ayudaros en vuestro trabajo de investigación. Las he seleccionado por su utilidad para nosotros. Lo digo porque hay muchísimas más específicas para diseño, pero que nos darían un montón de trabajo, pues tendríamos que contar las palabras “a pelo” y nosotros lo que queremos realmente es la automatización y visualización de la frecuencia de las palabras lo más rápido y fácil posible.
Para hablaros de las 5 herramientas que he seleccionado vamos a jugar con el siguiente texto extraído del New York Times:
“The issue with respect to Syria is not simply a military issue, it’s also a political issue,” Mr. Obama said at the White House. “It’s also an issue that involves all the Sunni states in the region and Sunni leadership recognizing that this cancer that has developed is one that they have to be just as invested in defeating as we are.”TAGCROWD
Some longtime critics of the president said they were encouraged by his restraint. His comments, they said, recognized that airstrikes alone would not be sufficient to defeat ISIS in Syria. It will require a ground component, which can succeed only if the United States and its allies strengthen the moderate opposition in Syria.
That, in turn, will require persuading Saudi Arabia, Qatar, the United Arab Emirates and others to coordinate their support for the rebels. For now, the outside support goes to several groups, including radical ones, like the Nusra Front, which the State Department classifies as a terrorist organization.”
http://tagcrowd.com/ es una de mis favoritas. Es rápida y funciona de fábula. Te permite no sólo analizar el peso semántico de un texto, sino también de una web a través de un enlace o un archivo de texto que ya tengas preparado y no es demasiado lenta. Además tiene un montón de características configurables. A mí, por ejemplo, me gusta que marque el número de palabras que ha contabilizado para poner en perspectiva.Cuando el peso de una palabras es realmente elevado da pistas ;-)
El texto quedaría así:
ABC YA
http://www.abcya.com/word_clouds.htm está pensada para niños y educación infantil. Es sencillísima de utilizar y puedes configurar la fuente y los colores de la nube (por si quieres presentarlo en un informe). Algo rapidísimo es la selección del top de palabras. De esa manera te elimina ruido y puedes ver rápidamente cuáles son las más utilizadas. La opción es “Word count”. Aunque sea para niños no debemos menospreciarla tal y como puedes ver a continuación ;-)
WORD IT OUT
http://worditout.com/word-cloud/make-a-new-one tiene un interfaz un poco básico, pero también funciona de maravilla. Te permite elegir el tipo de fuente y la gama de colores. Además puedes configurar la tipología del tamaño por el número de veces que aparece una palabra o por niveles, para identificar saltos más elevados en la frecuencia de aparición de una palabra. También tiene la ventaja de que puede analizar directamente una web.
VOCAB GRABBER
https://www.visualthesaurus.com/vocabgrabber/# Su parte gratuita es muy limitada, al fin y al cabo es sólo de gancho para que te suscribas. Pero aun así puede ser de mucha utilidad. Aunque no diseña la nube con figuras, sí resalta y analiza las palabras más utilizadas. Además, lo conecta con su diccionario clúster que te permite consultar el significado de una palabra concreta. En el ejemplo pulsé sobre el término “sunni” y me mostró en el lado derecho las definiciones y las correlaciones con términos similares.
TO CLOUD
http://www.tocloud.com/ puede parecer poco “bonita”, pero la cantidad de configuraciones que tiene la hace muy interesante. Por ejemplo, entre ellas te permite ordenar las palabras por lo que quieras. En la imagen que propongo las he querido ordenar de mayor a menor frecuencia para conocer rápidamente cuáles son las palabras más utilizadas. También te permite darle un diseño de colores adecuado a tus gustos estético. Por supuesto si pagas la licencia puedes aprovechar la herramienta mucho mejor.
Consejo para el castellano: generalmente estas herramientas están pensadas para el idioma inglés. De esta manera por defecto ya eliminan los artículos y las preposiciones para no introducir ruido. Si introduces un texto en español " a pelo" podrás comprobar que son estas palabras las que más se repiten. Así que tendrás que hacer una pequeña limpieza antes. Introduce el texto en word y elimina todos los artículos y preposiciones con la opción "Buscar y Replanzar". Después ya lo tendrás listo.
Como siempre espero que te haya servido de ayuda y si vas a utilizar algo de este blog para publicar por ahí acuérdate de citar a la autora. Potenciemos la inteligencia colectiva sin dañar a los autores ;-)