De la connaissance à l’automatisation
Depuis longtemps, Wikipédia est un espace où les humains écrivent, éditent et débattent du savoir. Pourtant, en 2025, alors que les grands modèles de langage (LLM) servent de plus en plus d’intermédiaires entre les utilisateurs et l’information, la visibilité des sources créées par des humains, comme Wikipédia, diminue silencieusement. Lorsque les chatbots d’IA résument, paraphrasent ou réécrivent du contenu initialement rédigé par des éditeurs humains, les lecteurs peuvent ne jamais visiter les pages d’origine. Le résultat est mesurable : une baisse du nombre de vues humaines, et potentiellement, un déclin de l’engagement collectif qui fait vivre les projets Wikimedia.
« Nous observons une baisse des vues humaines sur Wikipédia au cours des derniers mois, correspondant à une diminution d’environ 8 % par rapport aux mêmes mois de 2024. »
Cette tendance n’est pas isolée. Les plateformes sociales, les moteurs de recherche, les chatbots d’IA et les LLM filtrent et réutilisent désormais des informations qui, autrefois, dirigeaient directement les lecteurs vers Wikipédia. Si ces systèmes sont techniquement remarquables, ils risquent toutefois de reproduire un schéma bien connu : une automatisation construite sur le travail humain, suivie par l’effacement progressif des personnes qui l’ont rendu possible.
Le problème de l’effacement
L’effacement n’est pas nouveau. Les communautés marginalisées — en particulier les personnes LGBTQ+ — y sont confrontées depuis longtemps, à travers l’omission, la déformation ou la censure pure et simple. Ces dernières années, l’IA générative a introduit de nouvelles formes de cet effacement. Une enquête du magazine Wired en avril 2024 a révélé que les représentations générées par IA des personnes queer étaient fréquemment stéréotypées, inexactes, voire totalement absentes.
Lors de ma présentation Célébrer nos histoires : fiertés, récits et mémoire collective (Nantes, août 2025), j’ai observé des biais similaires lors de la génération d’images à partir du mot « amour ». La plupart des systèmes produisaient par défaut des images hétéro-normatives, renforçant une vision étroite et aseptisée de l’affection. Plus inquiétant encore, lorsqu’on demandait de représenter une « personne gay » ou un « homme trans », plusieurs grands modèles d’IA recouraient à des clichés. Par exemple, le prompt « gay person » renvoyait souvent l’image d’un homme brandissant un drapeau arc-en-ciel. Je me suis alors demandé : la queerness doit-elle toujours se réduire à un drapeau ? Attend-on de moi que j’en porte un dans la vie quotidienne ?
Ce ne sont pas de simples questions esthétiques. Elles révèlent des biais plus profonds, intégrés dans les ensembles de données et les chaînes d’entraînement à toutes les étapes du développement de l’IA :
- Collecte de données : suppression de contenus LGBTQ+ légitimes en même temps que de véritables contenus nuisibles ;
- Tokenisation : fragmentation ou négligence des néo-pronoms et identifiants non binaires en raison de leur rareté statistique ;
- Entraînement : exclusion de documents contenant des termes et thématiques LGBTQ+ ;
- Post-entraînement : modération excessive signalant les discussions communautaires sur l’identité ou la culture comme du « contenu pour adultes ».
Ce pipeline est préoccupant. Imaginez une situation où les sujets queer et les expériences vécues seraient retirés ou filtrés dès la première étape de la collecte des données. Dans un tel cas, les modèles d’IA n’auraient tout simplement jamais la possibilité d’apprendre ce qu’est la queerness.
Le résultat est un cycle où certaines identités deviennent irreprésentables — filtrées techniquement au nom de la « sécurité ».
Queering Wikipédia et défendre la représentation
Dans Queering Wikipedia (octobre 2025), j’ai soutenu que les projets Wikimedia demeurent parmi les rares espaces numériques où les histoires et identités queer peuvent être documentées avec nuance, multilinguisme et supervision collective. Contrairement aux ensembles de données propriétaires utilisés par l’IA, l’infrastructure de Wikimedia est ouverte, vérifiable et fondée sur le débat. Chaque modification laisse une trace ; chaque désaccord devient un enregistrement public de la manière dont le savoir évolue à travers le dialogue humain.
Cette transparence est cruciale. Lorsque les systèmes d’IA effacent ou déforment la représentation queer, les communautés Wikimedia peuvent réaffirmer la couche humaine de contexte que les machines oublient souvent. Par l’écriture collective, la citation et la discussion, les bénévoles continuent à nous réinscrire dans l’histoire — article après article.
Étendre systématiquement le contenu LGBTQ+
Pour contrer l’effacement numérique, les communautés doivent aller au-delà des contributions isolées. Nous avons besoin de stratégies systématiques pour développer le contenu LGBTQ+ et garantir des modèles de données inclusifs à travers les projets Wikimedia :
Pour Wikipédia et les projets frères
- Créer des biographies complètes : documenter les figures historiques et contemporaines LGBTQ+ à travers les régions et les langues ;
- Documenter l’histoire, la culture et les médias : inclure archives, organisations, mouvements et événements souvent négligés par les récits dominants ;
- Assurer une couverture multilingue : traduire et contextualiser le contenu pour les différentes éditions linguistiques afin de favoriser l’accessibilité mondiale.
Pour Wikidata et les projets de données structurées
- Développer des modèles de données inclusifs : affiner la représentation de l’identité dans les données structurées pour refléter la complexité et la fluidité ;
- Respecter l’auto-identification : privilégier les étiquettes et déclarations qui reflètent la manière dont les personnes et les communautés se décrivent elles-mêmes ;
- Documenter le consensus : rendre visibles les discussions et décisions qui façonnent les propriétés et déclarations liées à l’identité.
Construire un écosystème d’IA plus équitable
Le rôle de Wikimedia dépasse la création de savoir : il sert de modèle pour des pratiques éthiques de gestion des données. Pour garantir que le savoir ouvert reste inclusif et vérifiable à l’ère de l’IA, cinq principes peuvent guider Wikimedia et l’écosystème de l’IA dans son ensemble :
- Imposer la diversité des sources de données : les modèles d’IA doivent être entraînés sur des ensembles reflétant la diversité mondiale, et non sur des corpus aseptisés ;
- Créer des métriques de qualité : évaluer l’inclusivité, la diversité linguistique et la représentation culturelle, et pas seulement la précision prédictive ;
- Financer les WikiProjets : soutenir les initiatives thématiques et régionales qui documentent les identités et histoires marginalisées ;
- Établir des normes d’attribution : exiger la citation transparente et la reconnaissance des sources Wikimedia et autres sources de savoir libre ;
- Soutenir les efforts multilingues : renforcer les Wikipédias en langues minoritaires comme nœuds essentiels de la diversité culturelle.
Documenter la queerness, vaincre l’effacement
L’actuelle vague d’IA risque de reproduire les cycles historiques de disparition. Pourtant, Wikimedia propose un contre-modèle : une archive vivante et participative de l’expérience humaine. Sa force réside non seulement dans son ouverture, mais aussi dans ses communautés — les éditeurs, traducteurs, vérificateurs et lecteurs qui défendent la représentation dans chaque langue.
Si l’IA est entraînée sur la somme du savoir humain, alors la qualité et l’inclusivité de ce savoir dépendent de nous. L’avenir de la visibilité queer — et de toute identité marginalisée — ne peut être confié aux boîtes noires de systèmes propriétaires. Il doit rester entre les mains de communautés qui documentent avec soin, défient les biais et célèbrent la complexité.
Beaucoup d’entre nous ont grandi sans se voir reflétés dans les manuels, les médias ou le discours public. Les communautés Wikimedia ont le pouvoir de changer ce récit — non seulement pour nous-mêmes, mais pour les générations à venir. Pour que l’IA ne nous efface pas une fois encore, nous devons continuer à écrire, à questionner et à nous souvenir — ensemble.
Les diapositives de la présentation sont disponibles ici.
Références
- Wired. Voici comment l’IA générative représente les personnes queer. Avril 2024.
- Marshall Miller. La baisse des vues humaines sur Wikipédia à mesure que l’IA progresse. Diff, 17 octobre 2025.
- John Samuel. Célébrer nos histoires : fiertés, récits et mémoire collective. 50e Rencontres LGBTI+, Fédération LGBTI+, Nantes, France, août 2025.