Mostrando entradas con la etiqueta desinformación. Mostrar todas las entradas
Mostrando entradas con la etiqueta desinformación. Mostrar todas las entradas

miércoles, octubre 13, 2021

A la caza de bots, trolls y el lenguaje de odio: cuatro herramientas

Por Talya Aluveaux


Esta mañana el Instituto de Ciencias de Redes de la Universidad de Indiana, en colaboración con su observatorio de Social Media, reunió en una sesión de zoom una serie de demostraciones de cuatro de las herramientas más importantes actualmente para el análisis y detección de lenguaje de odio y bots en línea: BotHunter v1, Botometer, BotSlayer Beta y Net Mapper.


Aquí es cuando una está agradecida por estas maravillosas sesiones en línea, de acceso libre y gratuito (y breves además). Aunque el tiempo de exposición (15 minutos) de cada herramienta es poco, es suficiente para adquirir una idea del potencial de cada uno (y la curva de aprendizaje), así como su aproximación y/o enfoque hacia la caracterización de lo que conocemos como un bot.


En algunos casos, como Botometer y BotSlayer, es necesaria cierta habilidad para el trabajo con API´s para el trabajo a escala. Desarrollada en la Universidad de Indiana, la herramienta ayuda a identificar el comportamiento bot-like de los agentes de una red social. Bajo esta perspectiva, todos podemos tener un cierto porcentaje, pero hay algunos indicadores, como por ejemplo, el nunca dejar de tuitear (día y noche) que delatan la naturaleza del agente. La herramienta permite revisar la cuenta propia, de seguidores y amigos, y exportar los resultados en formato .json (Java Script Object Notation).


En el caso de BotHunter v1 (Carnegie Mellon), la herramienta realiza una clasificación de las cuentas, construyendo una caracterización. Que la cuenta sea bot o no depende de su clasificación en los umbrales de los "bot scores". En esta herramienta se hace énfasis en la clasificación de los bots (y su evolución). Para una probabildad consistente de que la cuenta consista en un bot, debe alcanzar un score de 40 puntos, y para una predicción estable de esta caracterización, la generación de entre 20 y 40 tweets (funciona solamente para twitter). Hay que tomar en cuenta que no todos los bots son malos, y de hecho algunos son útiles.


Una de las palabras clave al hablar de este tipo de herramientas es "predicción". ¿Qué tan acertadamente podemos predecir que una cuenta es un bot, o que un comentario determinado entra en la categoría de lenguaje de odio? ¿Todas las cuentas y/o comentarios en un conjunto de datos? Es más complicado de lo que parece cuando el que lo determina no es un humano, sino un algoritmo, con base en teoría emanada de las ciencias sociales, y la ayuda de un conjunto de variables.


Una tercera herramienta expuesta esta mañana fue BotSlayer beta. El expositor destacó, y lo sabemos, que la manipulación puede darse de formas diversas, y se trata de un problema complicado. Así, esta herramienta se decanta por dejar al usuario la decisión de si se trata de un caso de manipulación o no, considerando escenarios en los que se analiza el flujo de información entre cuentas.


Por último, retomando la perspectiva de la psicolingüística, Net Mapper (todavía no es público) es una herramienta de apoyo en el análisis del lenguaje de odio y el trolleo, ambas manifestaciones agresivas clave de los fenómenos de conflicto en línea. Al igual que en otras de las herramientas descritas, destacan la importancia de la clasificación entre estos dos comportamientos (hate speech vs trolling), así como el hecho de que un troll no es necesariamente negativo (puede tratarse de cuentas de humor o ironía).


NetMapper resulta verdaderamente interesante, pues incorpora léxico multilingüe (más de 40 lenguajes) y es multiplataforma (twitter, reddit), y por tanto mucho más útil que las herramientas que sólo trabajan con una red social y/o se enfocan únicamente en el idioma inglés. Según lo explicado por el expositor, se trata de herramientas basadas en teoría de las ciencias sociales, por ejemplo, la conceptualización del odio con base en la identidad. De esta manera, crean un modelo de lenguaje de odio que utiliza teoría de la identidad social para producir predicciones rápidas, interpretables y generalizables, con un 83% de precisión entre conjuntos de datos.


Todas estas herramientas pueden ayudarnos a comprender mejor los conflictos en línea. Algunos de los hallazgos utilizando NetMapper, por ejemplo, muestran que los grupos de odio se caracterizan por pertenecer a distintas sociedades y "targets" u objetivos, pero sus estructuras son similares. 


Quizá no estemos muy lejos de la ubicuidad de estas herramientas, algunas que por ahora tienen una elevada curva de aprendizaje, otras funcionalidad limitada y algunas aún no disponibles para el público, pero sin duda cada vez más necesarias en el marco de una carrera desbocada en una pista de social media sólo para locos.


¿Cuánto tiempo pasará para que podamos activar el hate speech detector y el troll hunter? Uno de los participantes de la videoconferencia preguntó al desarrollador de NetMapper cómo esta herramienta específica podía ayudar a los periodistas a buscar patrones sobre la evolución en curso de una campaña de manipulación, pero no obtuvo una respuesta clara, al menos no de manera inmediata. 


Queda estar pendientes, y trabajar en la construcción de una mejor ciudadanía, procurando no contribuir a la propagación de los discursos de odio, o funcionando como cámara de eco para los trolls, al menos cuando los detectamos intuitivamente. Bloquear, reportar y no alimentar es siempre la consigna, hasta que haya herramientas automatizadas que funcionen como red flags para desactivarlos de manera un poco más efectiva, aunque tristemente nunca desaparecerlos del todo, porque naturaleza humana.


@talya


Antes de irnos:

1. Hoy se lleva a cabo el primer Encuentro Nacional de ISI, organizado por la Unison, la División de Ingeniería, el Departamento de Ingeniería Industrial y el programa de ISI (Ingeniería en Sistemas de Información) y en este marco, un grupo de estudiantes guiados por el Dr. Federico Cirett presentará el proyecto Glycosa by Diabsen, una aplicación móvil para medir la glucosa a través de la reacción de la luz en la saliva. La cita es en la sala virtual https://bit.ly/3Dwq3WS a las 12:00 horas. Vía @Rql_Torres






jueves, octubre 07, 2021

La desinformación en la red

Por Talya Aluveaux


Tengo que confesar que no veo ni escucho las noticias locales, nacionales ni internacionales. No se trata de la calidad de la producción, sino de mi (inexistente) capacidad para lidiar con el estrés. Mis ansiedades tienen ansiedades y no necesito añadir más, y por alguna razón, el formato de los noticieros es un gatillo para mi.


Eso no significa que no lea noticias, las busque activamente cuando me interesen, o lleguen de manera inevitable dentro de mi (según yo) bastante selectivo feed. Por lo regular me entero de lo que me tengo que enterar, y algunas veces también de algunas cosas que no quisiera. Por Dios, nadie tiene tiempo para eso. No tengo tiempo aunque tenga tiempo. 


En fin, que algunas cosas (de esas que no me interesan), aterrizan en mi cabeza casi siempre de manera desfasada, en alguna plática con alguien mejor enterado, ante su cara de asombro y con mi cara de asombro aún mayor. Algunas veces llega no tan desfasada, como ayer que navegando, me encontré con un tweet que hacía referencia a un grupo de vecinos que protestaban cerrando una calle por la instalación de una antena de telefonía móvil en su colonia.


El motivo, al parecer, es el temor a los efectos del 5G. Ya sé que nos quedamos con cara de oigan, ¿es en serio? Pero sí, es en serio. Tan en serio como las palabras de una persona (profesionista, además) que me dio todo un discurso antivacunas unos días antes de la elección -les debo los detalles porque soy bastante buena para bloquearme en esos difíciles momentos-, tan en serio como todo un segmento de la población que creyó a pie juntillas, validó e incluso lucró con la cura milagrosa (cloro) contra el COVID-19 hace unos pocos meses. Del proceso democrático y las elecciones mejor no hablamos (por ahora).


El caso es que la desinformación corre y se propaga por las venas de internet, social media, los grupos de whatsapp, etcétera, mucho, pero mucho más rápido y de manera más efectiva que de lo que era capaz hace algunas décadas. Hemos tocado el tema sólo de manera tangencial en este blog, pero los algoritmos tienen un importante papel en este fenómeno. Aunque detengámonos ahí, porque a final de cuentas los algoritmos se basan en el comportamiento humano para después poder manipularlo, y los algoritmos son, después de todos, construidos por humanos.


Al final la principal herramienta para combatir la desinformación es la educación, en tanto no tengamos mano firme por parte de las llamadas big tech. Se han dado pasos en la dirección correcta, pero no los suficientes. Por ejemplo, YouTube decidió bloquear por completo toda desinformación antivacunas. Twitter ha dado algunos pasos, como preguntar si se ha leído un artículo o no antes de darle RT o compartirlo, o desactivar por completo a POTUS de su plataforma favorita tras los distturbios el año pasado, precisamente bajo el argumento de incitar la violencia y promover la desinformación.


De nuevo, el sensacionalismo vende. Una de las formas más efectivas para contrarrestar el alud de desinformación es el fact checking, es decir, las unidades de periodismo civil o ciudadano organizadas que se activan para desmentir información errónea, quizá no en tiempo real, pero sí lo más rápido humanamente posible. Claro que activar este tipo de organismos es complicado y tiene un costo económico, algunas veces político, y no todos los diarios y/o organismos civiles están dispuestos a invertir. 


Este, por ejemplo, es uno de los grandes campos de posible acción para el aprendizaje de máquinas o Machine Learning (ML), en función del entrenamiento de los mecanismos necesarios para la detección de la propagación de información errónea, ciertamente lleno de obstáculos y problemas relacionados con significados y minucias del lenguaje, pero definitivamente prometedor. 


Hay mucho espacio para reflexionar, pero preguntémonos una cosa por ahora: ¿en manos de quién debería estar esta tarea? ¿Quién asume la responsabilidad? ¿El Gobierno, la sociedad civil, las big tech o grandes empresas tecnológicas? El camino que se ha mostrado es el de la regulación, pero hay un trecho muy largo y espinoso por recorrer. 


@talya


Antes de irnos


1. A nivel global, las startups recaudaron un total de 150 mil millones de dólares durante el tercer trimestre (Q3) del 2021, al parecer un récord de todos los tiempos.




La bio de Miguel; lo prometido es deuda

Por Talya Aluveaux @talya Miguel de Icaza nació en 1972. Es un programador, mejor conocido por iniciar los proyectos GNOME, Mono y Xamarin. ...