Mistral AI rattrapée par une polémique “données” : ce que racontent les documents liés à l’affaire Meta

La question est devenue un angle mort gênant de l’IA générative : quelles données ont réellement servi à entraîner les grands modèles ? Fin décembre 2025, une nouvelle séquence remet le sujet au centre, avec un effet collatéral inattendu côté français : Mistral AI se retrouve associée à une controverse née… chez Meta.

À l’origine, une enquête (Mediapart) et des reprises par plusieurs médias tech expliquent qu’un des cofondateurs de Mistral, Guillaume Lample, aurait joué un rôle important, lorsqu’il travaillait chez Meta, dans un téléchargement massif (environ 70 téraoctets) de livres et d’articles supposément protégés par le droit d’auteur depuis Library Genesis (LibGen), une “shadow library” accusée de mettre à disposition des œuvres sans autorisation. Les Numériques+1

D’où viennent ces accusations ?

Les éléments cités par la presse s’appuient sur des documents rendus publics dans le cadre de procédures américaines visant Meta (notamment Kadrey v. Meta Platforms), où des auteurs reprochent au groupe d’avoir utilisé leurs livres pour entraîner des modèles de la famille Llama. Les Numériques+2Justia Droit+2

Selon ces reprises, l’idée, côté Meta, était de rattraper rapidement les concurrents qui dominaient alors la course aux modèles de langage. Dans des échanges internes rapportés par la presse, l’utilisation de LibGen aurait été défendue au motif que d’autres acteurs l’auraient fait aussi — un raisonnement qui cristallise aujourd’hui la critique : si “tout le monde” le fait, est-ce que ça devient acceptable ? Les Numériques+1

Meta, LibGen, Books3 : un sujet explosif… mais pas nouveau

L’affaire s’inscrit dans une vague plus large de litiges et révélations sur l’IA : plusieurs entreprises sont accusées d’avoir entraîné leurs modèles sur des œuvres protégées, parfois via des bases “pirates”. Aux États-Unis, certains jugements récents montrent une ligne de crête : l’entraînement peut parfois être défendu au nom du fair use (usage transformatif), mais l’obtention des œuvres via des bibliothèques pirates reste une zone à risque — y compris quand l’entraînement, lui, est considéré comme légal. AP News+2AP News+2

Dans le dossier Meta, les reprises indiquent aussi que les 70 To évoqués n’auraient pas forcément été utilisés tels quels pour la première version de Llama, mais la question du recours à des bases de livres reste centrale dans les accusations visant la constitution des datasets. Les Numériques+1

Pourquoi Mistral AI est-elle citée dans l’histoire ?

Parce que Guillaume Lample est aujourd’hui un des dirigeants de Mistral, et que des documents/échanges cités par la presse alimentent une interrogation : quelles données ont servi à entraîner les premiers modèles de Mistral, dont Mistral 7B (publié fin septembre 2023) ? Les Numériques+2Mistral AI+2

Il faut être précis : à ce stade, ce qui est mis en avant dans ces articles relève d’allégations et de questions plus que d’une condamnation de Mistral sur ce point. Plusieurs médias indiquent que ni Guillaume Lample ni Mistral n’auraient répondu aux sollicitations de l’enquête initiale (selon leur récit). Les Numériques+1

De son côté, Mistral met en avant une combinaison de sources : données publiques, datasets sous licence et données synthétiques, d’après une déclaration rapportée par la presse. Presse-citron

Le vrai enjeu : la transparence (et la pression réglementaire qui monte en Europe)

Au-delà du “qui a fait quoi en 2022”, cette polémique renvoie à un problème structurel : l’IA moderne dépend d’énormes quantités de texte, et l’industrie a longtemps avancé avec une opacité quasi totale sur les corpus.

Sauf qu’en Europe, le cadre change : le règlement européen sur l’IA (AI Act) introduit des obligations pour les fournisseurs de modèles d’IA “à usage général”, notamment l’idée d’une politique de respect du droit d’auteur et la mise à disposition d’un résumé du contenu utilisé pour l’entraînement, avec un “niveau de détail approprié”. EUR-Lex+1

Concrètement, plus les acteurs seront grands et visibles, plus ils devront être capables d’expliquer d’où viennent les données — même si cela ne signifie pas publier œuvre par œuvre. EUR-Lex

Mistral a aussi signé des accords “licenciés” (mais après ses premiers modèles)

Ces derniers mois, Mistral a communiqué sur une stratégie plus “propre” côté contenus, avec des accords de licence et des partenariats. Exemple marquant : un partenariat avec l’AFP annoncé en janvier 2025, pour intégrer des dépêches et renforcer la fiabilité des réponses liées à l’actualité. Le Monde.fr+1

Mistral est aussi citée dans des projets français autour de corpus culturels (BnF/INA), via le consortium ArGiMi sélectionné en 2024 dans le cadre d’un appel à projets. BnF – Site institutionnel+2Archimag+2

Le point que soulignent certains articles : ces accords arrivent après le lancement des premiers modèles, donc ils ne répondent pas entièrement à la question historique des datasets initiaux. Les Numériques

Ce qui peut se passer ensuite

Trois suites sont plausibles :

Communication / clarification : Mistral pourrait publier davantage d’éléments sur ses sources d’entraînement (dans les limites du secret industriel), surtout avec la pression réglementaire européenne. EUR-Lex+1
Contagion juridique : même quand les procédures visent d’abord des géants US, la dynamique globale des plaintes “livres + IA” continue de s’étendre à de nombreux acteurs. Reuters+1
Accélération des licences : plus les tribunaux et les régulateurs durcissent le ton sur l’acquisition des données, plus les éditeurs/agences/ayants droit auront du levier pour négocier (ou imposer) des accords payants. AP News+1