Inegi en conjunto con Infotec, Centro Geo y el apoyo de Tec Milenio realizó un análisis del estado de ánimo de los tuiteros en México de febrero de 2014 a mayo de 2015. Esta información está presentada de manera geográfica y temporal en el sitio del Inegi. A continuación presentamos un extracto de la nota metodológica de cómo se clasificaron los mensajes de la red social y cómo se llegó al resultado. El documento original se encuentra disponible en éste vínculo (documento en PDF).
Metodología
Twitter es una red social en la que los usuarios escriben textos cortos de hasta 140 caracteres que quedan visibles públicamente, es decir cualquier persona puede leer lo que se escribe en Twitter, no solamente aquellos que están vinculados al usuario que escribió el tuit. Adicionalmente el tuitero tiene la alternativa de georreferenciar sus tuits, etiquetando cada tuit con las coordenadas geográficas de su ubicación en el momento de publicarlo. El análisis del ánimo de los tuiteros se centró en estos tuits georreferenciados, debido a que es posible descargarlos mediante filtros geográficos sin importar el tema del que hable el tuitero, la desventaja de esto es que no todos los tuits se emiten con el atributo geográfico.
Mediante el uso de mecanismos que Twitter pone a disposición de cualquier usuario, el INEGI ha recolectado tuits públicos y georreferenciados dentro del territorio nacional, la parte sur de USA y norte de Centroamérica.
Generación del conjunto etiquetado manualmente
Para generar la estadística del estado de ánimo de los tuiteros en México es necesario calificar cada tuit de acuerdo a la carga emotiva que identifique el estado de ánimo que tenía el tuitero cuando escribió el tuit. Si esto tuviera que hacerse manualmente sería una tarea monumental, por ello se utilizan técnicas de “Machine Learning”.
Primero se requiere la clasificación manual de un subconjunto de tuits en la que se asigna una etiqueta de acuerdo a la carga emotiva de cada tuit. La etiqueta asignada a cada tuit se define como positiva, negativa o neutra.
Para generar este subconjunto de tuits etiquetados, se realizó una colaboración con la Universidad Tec Milenio, en la que más de 5 000 estudiantes etiquetaron manualmente miles de tuits. En este ejercicio cada tuit se presentó múltiples veces a los estudiantes con la finalidad de que un solo tuit pueda ser etiquetado varias veces y de esta manera buscar un consenso en la etiqueta.
[sociallocker id=3315]
Definición de conjuntos de entrenamiento y validación
Una vez normalizados los tuits, el conjunto se partió en dos conjuntos independientes, uno con el 89% de los tuits para utilizarlo como conjunto de entrenamiento y el otro conjunto para utilizarlo como conjunto de validación, el cual sirve para verificar la calidad de la clasificación realizada automáticamente.
Clasificación masiva de tuits
Utilizando el ensamblado de algoritmos ya entrenado, se prosiguió a procesar todos los tuits restantes, a los cuales se les aplicó previamente la función de normalización, dando como resultado una base de datos de tuits con un nuevo atributo que indica la carga emotiva de cada tuit.
Herramienta para la visualización de la estadística del ánimo de los tuiteros en México
Finalmente, se desarrolló una herramienta de visualización que toma el resultado de la clasificación automatizada de los 63 millones de tuits para representar el ánimo de los tuiteros en México, mostrando desgloses a nivel estatal por mes. Se calculó un índice que representa la relación de número de tuits positivos entre el número de tuits negativos y se representan tanto geográficamente como gráficamente. La escala es relativa tomando como máximo el valor más grande de todos los índices mensuales y como mínimo el valor más pequeño de los mismos índices, utilizándose la misma escala para todos los meses del periodo con el fin de que sean comparables entre sí. La escala de colores utilizada en el mapa, indica la intensidad del sentimiento de cada entidad federativa, mientras más positivo es más verde y mientras más negativo es más rojo.
La herramienta está disponible en este vínculo.
[/sociallocker]
[…] Miembros del grupo de Analítica Computacional de INFOTEC, en colaboración con investigadores del Centro Geo, aportaron los algoritmos de clasificación que fueron usados para determinar el estado de ánimo expresado en millones de tuits. Los primeros resultados de la versión 1.0 fueron publicados por INEGI en 2016. […]