ENQUÊTE Facebook Files | Les documents internes de l’entreprise montrent son inertie face aux dysfonctionnements occasionnés par son défaut de maîtrise de la troisième langue du réseau social.
Pourquoi y a-t-il eu davantage de contenus identifiés comme violents et terroristes sur Facebook, Instagram et Messenger durant le ramadan en 2019 et en 2020 ? Des salariés de Facebook qui ont repéré ce phénomène statistique dans six pays à majorité musulmane, dont trois arabophones, sont intrigués. Sur leur forum interne, ils évoquent une hypothèse, sans pouvoir totalement la confirmer : les messages issus du Coran postés pendant cette période contiennent des mots, comme « martyr » ou « combat », qui ont été automatiquement associés par les algorithmes de Facebook à des propos violents ou terroristes.
Sollicité, Facebook affirme « ne pas avoir de preuve de modération indue liée au ramadan ». Cette anecdote d’un système mal calibré prenant des décisions erronées est pourtant relatée dans l’un des nombreux documents internes à Facebook, récupérés par Frances Haugen, une ancienne employée, et transmis par une source parlementaire américaine à plusieurs médias, dont Le Monde. Elle illustre de manière criante les carences du réseau social en matière de modération des contenus arabophones et son inertie pour y mettre fin.
La question des dialectes
Les pays arabophones d’Afrique du Nord et du Moyen-Orient sont un marché majeur pour Facebook, avec 220 millions d’utilisateurs actifs fin 2020 – soit une bonne moitié de la population de la zone –, faisant de l’arabe la troisième langue sur le réseau social. Il s’agit même, à l’été 2020, de la zone du monde où les utilisateurs sont les plus actifs.
« Avec la taille de notre base d’utilisateurs en langue arabe et la gravité potentielle des dégâts hors ligne dans quasiment tous les pays arabes – tous, excepté le Sahara occidental, figurent dans la liste des pays à risque et font face à des problèmes graves, comme le terrorisme et le trafic sexuel –, mettre davantage de ressources pour améliorer les systèmes [de modération] en langue arabe est de la plus haute importance », peut-on lire dans un document rédigé, fin 2020, par un salarié, dans une note sur les limites du recours à l’intelligence artificielle pour la modération.
L’état des lieux dressé par ces documents est sans appel et se résume en une phrase : Facebook n’est pas en capacité de faire examiner les commentaires en langue arabe potentiellement illicites par des modérateurs compétents – lorsque ces derniers existent. Les causes de ce problème sont multiples. Humaines, d’abord : aussi surprenant que cela puisse paraître pour une multinationale présente dans les pays arabes depuis des années, Facebook ne disposait pas, à la fin de l’année 2020, de suffisamment de modérateurs capables de comprendre tous les principaux dialectes arabes ni les contextes culturels et nationaux, forcément différents dans cette vaste zone allant du Maroc à l’Irak.
Or, la question des dialectes est centrale, ainsi que l’a bien compris l’auteur d’un des documents : « L’arabe n’est pas une langue, mais plutôt une famille de langues, dont beaucoup sont mutuellement incompréhensibles, écrit-il. Il n’est pas du tout garanti qu’un Marocain puisse actionner [jargon interne signifiant prendre une décision sur un contenu] correctement des contenus algériens, tunisiens ou libyens. Et il est quasiment garanti qu’il va mal actionner des contenus non maghrébins. »
Obstacles technologiques
C’est pourtant ce qu’il se passe : les modérateurs arabophones, principalement situés à Casablanca (Maroc) et à Essen (Allemagne), modèrent des contenus rédigés dans un dialecte qu’ils ne maîtrisent pas. Ce qui aboutit à de nombreuses erreurs. Pour certains pays, Facebook ne dispose tout simplement pas d’experts capables de comprendre la langue. Selon les documents, la situation est particulièrement critique pour le Yémen, l’Irak, l’Arabie saoudite ou la Libye. Et cette carence touche toute la chaîne, des simples modérateurs à ceux chargés de superviser la modération.
Un point « de grande inquiétude », selon un des auteurs, et qui interpelle Mohamad Najem, directeur de SMEX, une ONG de défense des droits numériques installée à Beyrouth : « C’est un problème avec cette entreprise : ils ont des milliards de dollars et prétendent être en sous-effectif. J’imagine que c’est une décision économique, ils ne gagnent pas beaucoup d’argent dans ces pays. »
Facebook n’a pas souhaité nous dire combien de modérateurs arabophones il employait, où ils étaient installés et combien de dialectes ils maîtrisaient, se contentant de renvoyer à des chiffres globaux de 15 000 modérateurs répartis sur vingt sites dans le monde et parlant 70 langues. Interrogé par Le Monde et ses partenaires européens, un porte-parole a mis en avant les « investissements » consentis pour étoffer ses effectifs de modérateurs, la complexité dialectale de l’arabe ainsi que la variété des contextes nationaux :
« Nous travaillons en permanence pour améliorer nos capacités en arabe, mais nous reconnaissons avoir encore du travail devant nous. (…) Nous étudions plusieurs options, y compris le recrutement de modérateurs parlant des langues plus variées qui peuvent aussi rediriger des demandes spécifiques vers d’autres sur la base du dialecte du contenu qui a besoin d’être modéré. »
A ces difficultés humaines s’ajoutent des obstacles technologiques que Facebook n’avait, il y a encore quelques mois, pas réussi à franchir. Faute notamment de pouvoir reconnaître convenablement les différents dialectes, le système d’acheminement des commentaires possiblement illicites patine, selon les documents que nous avons pu consulter. C’est un dysfonctionnement de ce type qui avait, par exemple, abouti à la suppression indue d’une publication d’un utilisateur en Egypte ayant partagé un postd’Al-Jazira faisant référence au Hamas. Cette décision avait été examinée par l’Oversight Board, la « cour suprême » créée par Facebook et rassemblant des observateurs externes à l’entreprise, qui avait donné tort au réseau social.
Selon un des documents, le système chargé de reconnaître les contenus critiquant le terrorisme se trompe plus de trois fois sur quatre
Facebook fait aussi face à un problème de données. Ces dernières années, l’entreprise a automatisé une part croissante de sa modération grâce à des programmes d’intelligence artificielle. Mais ces derniers doivent disposer de beaucoup de contenus modérés de manière satisfaisante pour « apprendre ». Or, puisque Facebook ne dispose pas des modérateurs humains compétents dans les dialectes arabes, ces programmes ne disposent pas de données d’apprentissage satisfaisantes. « Le principal ingénieur de l’équipe “haine” a dit que, en l’état, ils ont à peine assez de contenus pour entraîner et maintenir les classifiers [un système qui permet de catégoriser automatiquement les contenus] arabes actuellement », déplore l’un des auteurs des documents. Sur ce point, Facebook affirme que son intelligence artificielle a fait des progrès en traduction automatique et peut également apprendre à modérer en utilisant des données issues d’une autre langue.
Les algorithmes de Facebook rencontrent une série de difficultés. « La détection par Facebook des publicités illicites n’est pas aboutie, relate un des documents. Instagram ne détecte pas les discours de haine en arabe de manière efficace, est-il aussi remarqué. Les classifiers pour le harcèlement ne fonctionnent pas pour le moment en arabe. » Le système chargé de reconnaître les contenus critiquant le terrorisme se trompe plus de trois fois sur quatre, conduisant à la suppression d’un important nombre de contenus légitimes. Une statistique rejetée par Facebook, qui figure pourtant dans l’un des documents que nous avons consultés.
Caractère arbitraire
Ce constat éclaire les multiples erreurs de modération qui ont fait l’actualité dans les pays arabophones et corroborent les critiques formulées par la société civile depuis dix ans. « Je ne suis pas surprise, confirme Mahsa Alimardani, chercheuse à l’université d’Oxford. Ces problèmes surviennent partout dans la région. Ils sont si courants que tous les gens que je connais y ont été confrontés », poursuit-elle, y voyant un problème à la fois de politiques de modération, conçues avec un biais américain, et de technologie.
Un des documents confirme le caractère arbitraire de la modération de Facebook dans les pays arabophones, alimenté par le bannissement d’organisations politiques considérées comme dangereuses, mais faisant partie de la vie politique. « Les mesures que nous prenons contre [les contenus] soutenant ces organisations empêchent la participation des utilisateurs dans la discussion politique, limitant leur droit à la liberté d’expression », note l’un des documents, citant par exemple le Hamas ou le Hezbollah, classés comme terroristes par les Etats-Unis. Interrogé sur ce point, Facebook défend cette politique, qu’il se vante d’élaborer en partenariat avec la société civile et précise autoriser « nos utilisateurs à les critiquer ou discuter de leurs activités de manière neutre. Lorsque l’intention n’est pas claire, nous pouvons retirer le contenu ».
A ce problème s’en ajoute un autre. « Lorsque Facebook supprime par erreur des actualités ou des critiques portant sur ces organisations, cela crée la perception que Facebook est aligné avec les régimes en place », ajoute le document. « Il y a un problème de surcensure en arabe », confirme Rasha Abdulla, professeure à l’université américaine du Caire et experte des réseaux sociaux dans le monde arabe :
« Facebook supprime beaucoup de posts totalement normaux. La modération est basée sur de simples mots-clés plutôt que sur des humains. Dès que vous utilisez un mot particulier, toute la publication est supprimée. »
Ces documents montrent que Facebook est parfaitement conscient de ces manquements et des erreurs qu’ils occasionnent. L’un d’eux mentionne ainsi plusieurs campagnes organisées par des militants pour dénoncer la censure de contenus, en particulier ceux soutenant la cause palestinienne. « Après enquête sur les contenus portés à notre connaissance, nous avons découvert que la plupart avaient été supprimés par erreur », reconnaissent les auteurs.