¿Podemos predecir las Elecciones del 28 de Abril gracias a Twitter?

Los avances en el procesamiento del lenguaje natural han permitido que una serie de servicios adquieran capacidades predictivas, no sólo para dar sentido al Big Data, sino que lo utilizan para pronosticar cómo se desarrollarán algunas situaciones en el futuro.

En los últimos años lo hemos podido ver en algunos proyectos:

  • Un modelo predictivo de los investigadores de la Universidad de California, en Los Angeles, para predecir dónde se cometen los delitos (y, por lo tanto, dónde se debe ubicar a la policía).
  • Una red neuronal para pronosticar el precio del petróleo, desarrollada por un equipo de varias universidades de Oriente Medio.
  • Una plataforma que utiliza el análisis predictivo para proporcionar a las empresas lo que denominan “inteligencia de eventos”, es decir, insights de cómo los próximos eventos (deportivos, conciertos, etc.) podrían influir en el negocio.
  • Un algoritmo que pretende predecir la probabilidad de éxito de una startup.

En un mundo en el que continuamente vamos dejando rastro digital, ¿cuál es la capacidad real para identificar el comportamiento de los votantes ante unas elecciones? ¿Se pueden usar las redes sociales para predecir los resultados de las elecciones?

El 8 de noviembre de 2016 vivimos el triunfo de Donald Trump en las elecciones de Estados Unidos. Desde que empezaron las encuestas, las empresas demoscópicas dieron siempre vencedora a Hillary Clinton. Sin embargo, según canales más innovadores como el ‘Deep Learning’ o el macro análisis de datos, la victoria se asignaba al candidato republicano. Una de las técnicas utilizadas fue comparar el volumen de tweets pro-Trump y pro-Clinton en Estados clave. Entre el 1 de octubre y el 7 de noviembre, la popularidad de Trump en Twitter en los Estados clave fue mayor de lo que sugerían la mayoría de las encuestas tradicionales.

Así pues, ¿son las redes sociales realmente una buena fuente de datos para predecir cómo votarán las personas? ¿Qué deberíamos plantearnos si quisiéramos montar un sistema que utilice los datos de Twitter para predecir lo que ocurrirá el 28 de abril?

Posibles enfoques para crear un algoritmo con datos de Twitter

En 2017 Kokil Jaidka realizó un estudio para evaluar la solidez de los diferentes enfoques para predecir con datos de Twitter las elecciones en tres países asiáticos: Malasia, India y Pakistán. Siguiendo la metodología de dicho estudio, podríamos plantearnos distintos enfoques a la hora de pensar en un algoritmo para predecir los resultados de las elecciones, cada uno con sus beneficios y sus retos.

Elecciones 2019

  • Análisis basado en la volumetría: Se trata de un enfoque simple y fácil de obtener gracias a la cantidad de datos generados en redes sociales. ¿Cuántas menciones específicas tiene un partido? ¿Seguidores? ¿Usuarios únicos? Será necesario realizar una limpieza de datos, así como normalizar el conteo real de autores para evitar el efecto de heavy users.
  • Análisis de sentimiento con aprendizaje supervisado: En este tipo de aprendizaje, los algoritmos trabajan con datos previamente etiquetados, y dadas las variables de entrada, buscan una función que asigne la etiqueta de salida adecuada. El algoritmo se entrena con un histórico de datos y así aprende a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida. Es necesario, por tanto, analizar y etiquetar previamente el texto. Este tipo de aprendizaje está bien adaptado para extraer la intención de voto en Twitter y es bueno para detectar sentimientos inferidos de texto aparentemente neutral.
  • Análisis de sentimiento con aprendizaje sin supervisar: El aprendizaje no supervisado se utiliza cuando no se dispone de datos etiquetados para el entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Un enfoque cuya ventaja principal es que no necesita de un dataset de entrenamiento, aunque el éxito de este tipo de algoritmo para la predicción de intención de voto queda limitado a países de habla inglesa.

Como en todo proceso de trabajo con datos, son clave las fases de recolección, limpieza y pre-procesamiento de datos antes de poder aplicar las técnicas de Machine Learning, aparte del etiquetado de estos en caso de que el algoritmo utilizado así lo requiera.

A la hora de pre-procesar los datos, podemos filtrar por distintas categorías:

  • Por menciones específicas: Así podremos filtrar los tweets de spam que tienden a mencionar muchas palabras trending. Reduce el ruido en la estimación, aunque es posible descartar algún tweet que no sea spam.
  • Autor del tweet: Nos permite contar el número real de engaged users, reduciendo así el efecto de los broadcasters.
  • Tweets positivos: Se entiende que los tweets negativos no son una intención de voto. Ayuda a reducir el ruido debido a la naturaleza abrumadoramente negativa de las discusiones políticas en Twitter.
  • Peso temporal: Concede más importancia a los tweets que se producen en el momento más próximo a las elecciones que los que se producen en semanas anteriores. Como parte negativa, si un partido político está en las noticias, sería favorecido indebidamente por este método.

A medida que aumenta la cantidad de datos que tenemos disponibles, nuestra capacidad para obtener información significativa y rápida a partir de esos datos es cada vez más importante. Si nos basamos en los estudios y los análisis realizados en los últimos tiempos, vemos que la información sobre sentimientos extraída utilizando modelos de aprendizaje automático fue el predictor más preciso de los resultados electorales. La información de las redes sociales es estable a pesar de los aumentos repentinos en las discusiones políticas, por ejemplo, alrededor de eventos relacionados con las elecciones.

Así, por ejemplo, los métodos que combinan información de sentimiento y volumen o información de sentimiento y red social son efectivos para predecir cuotas de voto más pequeñas. Hacer la pregunta correcta, acumular la información, limpiarla, analizarla con las técnicas adecuadas y ser capaz de predecir es hoy el reto.

Elecciones 2019

No obstante, surgen numerosas preguntas que nos tenemos que plantear. Es fácil contar el volumen de tweets, pero, ¿cómo se mide el sentimiento? ¿son las redes sociales realmente una buena fuente de datos para predecir cómo votarán las personas? ¿puede extrapolarse al electorado lo que ocurre en las redes sociales? Después de todo, hay mucha menos gente en Twitter que en el electorado de España, ¿es realmente representativo? Veremos si el CIS acierta en las Elecciones del 28 de Abril.

¿Tú qué opinas?

Submit a Comment

Your email address will not be published. Required fields are marked *