YouTube semble ne pas être d'accord
Une patate chaude : Une fois de plus, il a été révélé qu'une entreprise récupérait des données sur Internet pour entraîner ses modèles d'IA en utilisant une interprétation douteuse de la loi sur le droit d'auteur. À cette occasion, Nvidia a téléchargé des vidéos de YouTube, Netflix et d'autres plateformes pour collecter des données pour ses produits d'IA commerciaux.
Selon des discussions internes Slack, des courriels, des feuilles de calcul et plusieurs autres sources obtenues par 404 Media, Nvidia a demandé aux travailleurs de télécharger des vidéos à partir de diverses plateformes en ligne pour compiler des données afin de former son Omniverse, ses véhicules autonomes et ses produits humains numériques.
Baptisé Cosmos, le projet consistait à utiliser entre 20 et 30 machines virtuelles sur Amazon Web Services pour télécharger l'équivalent de 80 ans de vidéos chaque jour. Nvidia a téléchargé tellement de vidéos qu'il a réussi à accumuler plus de 30 millions d'URL en l'espace d'un mois.
En plus de Netflix et YouTube, les employés de Nvidia ont été chargés de former les modèles d'IA sur la base de données de bandes-annonces de films MovieNet, les bibliothèques internes de séquences de jeux vidéo et les ensembles de données vidéo Github WebVid, qui ont depuis été supprimés. L'entreprise a également utilisé InternVid-10M, un ensemble de données contenant 10 millions d'identifiants de vidéos YouTube.
Les questions de droits d'auteur sont toujours au cœur des discussions lorsqu'il s'agit de données collectées sur le Web par des entreprises. Ce sujet aurait été évoqué par des employés de Nvidia, qui ont utilisé plusieurs méthodes pour tenter de contourner tout éventuel recours juridique, notamment en utilisant des données marquées comme étant destinées uniquement à des fins académiques ou non commerciales.
HD-VG-130M est l'un des ensembles de données utilisés par Nvidia. Cette bibliothèque de 130 millions de vidéos YouTube stipule dans sa licence qu'elle est destinée à un usage académique uniquement, ce que Nvidia semble avoir ignoré. Les employés ont également utilisé le service cloud de Google pour télécharger l'ensemble de données YouTube-8M, car le téléchargement direct des vidéos n'est pas autorisé selon les conditions de service.
« Nous avons obtenu l'autorisation préalable de Google/YouTube pour le téléchargement et leur avons fait miroiter que nous allions le faire via Google Cloud », a écrit une personne sur un canal Slack. « Après tout, en général, pour 8 millions de vidéos, ils obtiennent beaucoup d'impressions publicitaires, des revenus qu'ils perdent lorsqu'ils les téléchargent pour la formation, donc ils devraient en tirer un peu d'argent. »
Nvidia aurait également utilisé des machines virtuelles avec des adresses IP tournantes dans certains cas pour éviter que YouTube ne détecte ce qu'il faisait et ne bannisse les utilisateurs.
En avril, il a été signalé que pour accéder à davantage de textes en anglais réputés sur Internet en 2021, les chercheurs d'OpenAI ont créé un outil de reconnaissance vocale appelé Whisper. Il a été conçu pour transcrire l'audio des vidéos YouTube, offrant à l'entreprise une mine de données pour former ses LLM. Pourquoi Google n'a-t-il pas fait objection ? Peut-être parce qu'il transcrit également les vidéos YouTube pour ses modèles d'IA, violant potentiellement le droit d'auteur des créateurs.
YouTube avait précédemment déclaré que le scraping de données pour former des modèles d'IA constituait une « violation flagrante » de ses conditions d'utilisation. Nvidia a déclaré à 404 Media que ses actions étaient « en totale conformité avec la lettre et l'esprit de la loi sur le droit d'auteur ».
Si vous vous demandez si Nvidia a utilisé des séquences de jeu de son propre service GeForce Now pour entraîner son IA, non, ce n'est pas le cas, même si cela semble possible à un moment donné. « Nous n'avons pas encore de statistiques ni de fichiers vidéo, car l'infrastructure n'est pas encore configurée pour capturer de nombreuses vidéos et actions de jeu en direct », a déclaré un chercheur senior de Nvidia à d'autres employés. « Il y a des obstacles techniques et réglementaires à surmonter. »
De nombreuses entreprises d'intelligence artificielle qui se livrent à des pratiques de scraping de données défendent leurs actions en affirmant qu'il s'agit d'une utilisation équitable en vertu de la loi sur le droit d'auteur. Les startups d'intelligence artificielle génératrices de musique Udio et Suno utilisent cette excuse dans leurs poursuites pour violation du droit d'auteur intentées par de grandes maisons de disques.