Deux organismes autrichiens à la pointe du développement de systèmes de détection automatisée de discours sexistes

Autriche | Sciences et technologies de l’information et de la communication : TIC, télécoms, micro-nanotechnologies, informatique
29 octobre 2021

Des méthodes permettant de détecter automatiquement le sexisme sur les plateformes en ligne ou les forums pourraient faire d’internet un meilleur endroit pour les femmes. Retour sur ces méthodes présentées à l’occasion du concours international « EXIST - Sexism Identification in Social Networks », et à l’occasion duquel l’Université des sciences appliquées de Sankt Pölten (FH Sankt Pölten) et l’Institut autrichien de technologie (AIT) ont remporté le concours en tant que troisième meilleure équipe dans le domaine de la détection automatisée de discours sexistes.

Le sexisme et les discours de haine sur le net sont un problème bien connu, et il a été montré que les femmes sont particulièrement confrontées à des messages sexistes et à des violences sexualisées. Et force est de constater que des améliorations notables dans la lutte contre les discours sexistes ou haineux se font encore attendre. Les lois sont souvent en retard sur les développements technologiques, et la modération des messages postés sur différentes plateformes ou des forums est difficile en raison de la masse souvent importante de contenus. L’intelligence artificielle et à l’apprentissage automatique pourraient faciliter ce processus en permettant une présélection de contenus sexistes ou haineux.

Dans le cadre du concours international « EXIST - Sexism Identification in Social Networks », plusieurs équipes de recherche, dont celles de la FH Sankt Pölten et de l’AIT, ont en effet testé différentes méthodes permettant de reconnaître automatiquement des discours sexistes issus d’un ensemble de données vocales. Les données analysées provenaient de messages publiés sur Twitter et Gab – une plateforme pour laquelle il n’existe pratiquement aucune directive en matière de contenu. "Le public y est très offensif en termes de langage, et il y a beaucoup de messages sexistes et de messages haineux", explique au Standard Matthias Zeppelzauer, chef du groupe de recherche en informatique des médias à l’Institut des technologies des médias créatifs de la FH Sankt Pölten pour expliquer la sélection des données.

Les données disponibles pour le développement d’outils de détection automatique de discours sexistes ont été préalablement classées par des experts en genre. Il existe cependant des positions divergentes sur ce qu’est ou non un discours sexiste. Une question se pose alors : comment une machine pourrait-elle être capable de reconnaître un tel discours ? Pour ce faire, les méthodes développées par les équipes de recherche du concours proviennent du traitement du langage naturel et de l’intelligence artificielle : ces modèles d’apprentissage profond (deep learning) s’appellent les "transformeurs". Ces derniers sont conçus pour gérer des données séquentielles, telles que le langage naturel, pour des tâches telles que la traduction et la synthèse de texte, et donc pour "apprendre" à développer une certaine compréhension du langage, de la même manière que les hommes apprennent une langue.

Lors du concours, les différentes performances des équipes de recherche ont été déterminées à l’aide d’un ensemble de données soumis à un test. Pour cet ensemble de données, les équipes de recherche n’ont reçu aucune information sur la classification de ce que sont et ne sont pas les discours sexistes. Le résultat de la classification automatisée en remarques sexistes et non sexistes a ensuite été comparé aux évaluations "humaines", qui n’ont été mises à disposition qu’aux organisateurs du concours. L’équipe de Zeppelzauer a obtenu une précision d’environ 78 % pour la détection des contenus sexistes. Cependant, force a été de constater que les combinaisons de discours sexistes, sacrastiques et ironiques ont été particulièrement difficiles à évaluer pour les outils automatisés.

Cela montre également les limites des systèmes actuels et que l’évaluation humaine reste très importante pour porter un jugement final sur le contenu. Cependant, de tels outils de détection automatique peuvent effectuer un travail préliminaire important en vue d’une évaluation finale, notamment dans le cas de la détection de discours sexistes ou haineux – par exemple, en classant les potentiels messages problématiques en tête de liste afin qu’ils puissent ensuite être plus rapidement et préalablement triés par un modérateur.

Sources :

Der Standard, Die Maschine mit viel Gefühl für Sexismus (en allemand)

Rédactrice : Kalina Esmein, kalina.esmein[at]diplomatie.gouv.fr - https://at.ambafrance.org/