Le Times fait de nombreuses affirmations accablantes dans son procès
Qu’est-ce qui vient de se passer? La controverse en cours sur les violations potentielles du droit d’auteur liées aux données de formation des grands modèles de langage a pris une tournure significative. Le New York Times a poursuivi OpenAI et Microsoft pour avoir utilisé des millions de ses articles pour entraîner leurs systèmes sans autorisation ni compensation.
Ce n’est un secret pour personne que les LLM utilisent des pans d’informations provenant d’Internet comme données de formation, mais le New York Times affirme dans son procès pour violation du droit d’auteur que son contenu a reçu une « importance particulière ». La plainte, déposée devant le tribunal fédéral de Manhattan, affirme que les sociétés « cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».
La poursuite indique que les millions d’articles de presse, d’enquêtes approfondies, d’articles d’opinion, de critiques, de guides pratiques et bien plus encore du Times, protégés par le droit d’auteur, ont été utilisés pour former les chatbots, qui rivalisent désormais avec le média en tant que source d’information. .
Le procès met également en évidence des informations fournies par Bing qui ont mal identifié le contenu de la publication. Il comprenait « les 15 aliments les plus sains pour le cœur », dont douze n’avaient pas été mentionnés dans l’article du Times. Une autre affirmation est que le contenu généré est des extraits textuels d’articles du New York Times, ce qui signifie que la publication perd des téléspectateurs et des clients payants au profit de ChatGPT.
La poursuite indique que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels ». Il demande également aux entreprises de détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d’auteur du Times. OpenAI estime que son utilisation du contenu du New York Times relève du « fair use » car il répond à un nouvel objectif « transformateur ».
La poursuite consacre également beaucoup de temps à montrer comment son contenu se trouve dans des ensembles de données publics, tels que WebText2, et y est également fortement pondéré en raison de sa qualité perçue. pic.twitter.com/fO8iE8yAtN
– MatthewBerman (@MatthewBerman) 28 décembre 2023
Il a été rapporté en août que le Times avait mené des « négociations tendues » pour parvenir à un accord de licence avec OpenAI et Microsoft qui permettrait au premier d’entraîner légalement son modèle GPT à partir de documents publiés par le Times, ce que le journal avait précédemment décidé de faire. interdire. Mais les négociations ont échoué, ce qui a conduit au procès actuel. OpenAI a déjà conclu un accord avec Reuters pour utiliser son contenu à des fins de formation.
Le grattage de données a fait la une des journaux cette année. Elon Musk a menacé de poursuivre Microsoft en justice en avril pour une allégation selon laquelle il utilisait illégalement les données de Twitter (comme c’était encore le cas à l’époque) pour former des modèles d’IA. En avril, plus de 8 000 auteurs, dont des sommités telles que James Patterson, Margaret Atwood et Jonathan Franzen, ont signé une lettre ouverte demandant aux dirigeants des six plus grandes sociétés d’IA de ne pas utiliser leurs travaux pour former des modèles sans avoir au préalable obtenu le consentement et proposé une compensation. Malgré ce plaidoyer, OpenAI a été poursuivi à plusieurs reprises par des auteurs pour violation du droit d’auteur.
Dans un procès distinct mais similaire, des artistes ont lancé une action en justice pour droits d’auteur contre les générateurs d’art IA Stable Diffusion et Midjourney en janvier.