L’entreprise prépare une défense basée sur l’utilisation équitable après avoir utilisé du matériel protégé par le droit d’auteur
Une patate chaude : La formation de modèles d’IA avancés avec du matériel exclusif est devenue une question controversée. De nombreuses entreprises sont désormais confrontées à des contestations judiciaires de la part d’auteurs et d’organisations médiatiques devant les tribunaux. Meta a admis avoir utilisé le célèbre ensemble de données « pirates » Books3, mais la société est réticente à rémunérer adéquatement les écrivains.
Un groupe d’auteurs a intenté une action en justice contre Meta, alléguant l’utilisation illégale de matériel protégé par le droit d’auteur dans le développement de ses grands modèles de langage Llama 1 et Llama 2. En réponse, Facebook s’est adressé à l’écrivain et comédienne Sarah Silverman, à l’auteur Richard Kadrey et à d’autres titulaires de droits à l’origine de l’action en justice, reconnaissant que ses LLM avaient été formés à l’aide de livres protégés par le droit d’auteur.
Meta a admis avoir utilisé l’ensemble de données Books3, parmi de nombreux autres matériaux, pour former les LLM Llama 1 et Llama 2. Books3 est un ensemble bien connu comprenant une collection en texte brut de plus de 195 000 livres totalisant près de 37 Go. L’archive a été créée par le chercheur en IA Shawn Presser en 2020 afin de fournir une meilleure source de données pour améliorer les algorithmes d’apprentissage automatique.
La large disponibilité de l’ensemble de données Books3 a conduit à son utilisation intensive dans la formation à l’IA par de nombreux chercheurs. Les grandes entreprises technologiques, dont Meta, ont utilisé Books3 et d’autres ensembles de données controversés pour leurs produits commerciaux d’IA. À ce sujet, le New York Times a poursuivi OpenAI et Microsoft pour avoir prétendument utilisé des millions d’articles protégés par le droit d’auteur pour développer le chatbot ChatGPT.

OpenAI a ouvertement déclaré que la formation de modèles d’IA sans utiliser de matériel protégé par le droit d’auteur est « impossible », arguant que les juges et les tribunaux devraient rejeter les poursuites en indemnisation intentées par les titulaires de droits. Faisant écho à cette position, Meta a admis avoir utilisé Books3 mais a nié toute faute intentionnelle.
Meta a reconnu avoir utilisé certaines parties de l’ensemble de données Books3, mais a fait valoir que son utilisation d’œuvres protégées par le droit d’auteur pour former des LLM ne nécessitait pas « de consentement, de crédit ou de compensation ». La société réfute les allégations de violation des droits d’auteur « présumés » des plaignants, affirmant que toute copie non autorisée d’œuvres protégées par le droit d’auteur dans Books3 doit être considérée comme un usage loyal.
De plus, Meta conteste la validité du maintien de l’action en justice en tant que recours collectif, refusant de fournir un quelconque « soulagement » monétaire aux auteurs poursuivants ou à d’autres personnes impliquées dans la controverse Books3. L’ensemble de données, qui comprend du matériel protégé par le droit d’auteur provenant du site pirate Bibliotik, a été ciblé en 2023 par le groupe anti-piratage danois Rights Alliance, exigeant que l’archivage numérique de l’ensemble de données Books3 soit interdit et utilise les avis DMCA pour appliquer ces retraits.



