Utiliser du matériel « emprunté » pour la formation. Utilisation équitable ou pas ?
Le point de vue de l’éditeur : Il ne fait aucun doute que de nombreux acteurs du secteur technologique sont enthousiasmés par le potentiel que l’IA générative offre à notre travail et à notre vie personnelle. Aussi passionnantes que puissent être ces opportunités, deux principes essentiels mais peu compris doivent être abordés afin d’utiliser la technologie de manière sûre et responsable. En un mot (ou en fait deux), ce sont la provenance et la gouvernance.
La provenance fait référence à la connaissance de la source d’où provient un texte, une image, une vidéo, un extrait de code ou tout autre élément d’information, tandis que la gouvernance fait référence à la gestion et au contrôle de la création et de l’utilisation de l’information.
Ces deux mots à consonance similaire ne faisaient pas partie du lexique du monde technologique jusqu’à récemment.
Mais la croissance explosive de GenAI et des outils et applications qui lui sont associés les a mis sur le devant de la scène. Cela attire également davantage d’attention sur des sociétés comme Adobe et IBM qui abordent ces problèmes de manière unique et importante.
« Dans un monde qui regorge désormais de modèles de base qui génèrent de nouveaux matériaux basés sur l’entrée d’énormes quantités de données existantes, la provenance ou l’origine d’un élément de contenu a de multiples significations. »
Premièrement, la question se pose de savoir si ce contenu a été créé directement par une personne ou généré par un algorithme. S’il provient effectivement d’un algorithme, on s’intéresse de plus en plus à savoir quel modèle de fondation ou quel outil GenAI l’a produit. Deuxièmement, et c’est le plus important, se posent de grandes questions sur les sources d’informations originales utilisées pour former les modèles qui ont généré ce contenu. Enfin, l’utilisation du contenu généré suscite d’énormes préoccupations juridiques et éthiques, en particulier s’il est basé sur du matériel protégé par le droit d’auteur.
Il y a déjà eu de nombreuses affaires judiciaires autour de ces questions, y compris une avec le NY Times poursuivant OpenAI pour ce qu’il considère comme une violation du droit d’auteur basée sur une sortie générée qui était pratiquement identique à certains articles du NY Times (dont beaucoup derrière un paywall). Bien que rien n’ait encore été résolu, il s’agira probablement de la première d’une longue série de poursuites similaires et commence déjà à conduire à d’importants accords de licence entre les fournisseurs de contenu et les créateurs de modèles GenAI.
Image de bus générée à l’aide de Stable Diffusion – Masthead créé par Dall-E.
Dans le monde des graphiques générés, le problème est particulièrement aigu puisque des exemples récents impliquant Dall-E 3, Stable Diffusion et Midjourney ont montré ce qui semble être des cas très évidents de violation de choses comme des scènes de film et des personnages. Encore une fois, il est probable qu’il y aura un large éventail de litiges juridiques fondés sur ces questions.
Certains aideront probablement à déterminer si l’utilisation de matériel protégé par le droit d’auteur à des fins de formation est considérée comme une utilisation équitable ou non. Plus important encore, les résultats clarifieront ce qui peut être fait à propos des nouveaux contenus générés qui ressemblent beaucoup à des contenus protégés par le droit d’auteur.
Le géant des logiciels de création Adobe a fini par adopter une approche très différente de la situation avec ses nouvelles offres GenAI et, ce faisant, semble éviter les problèmes de droits d’auteur que d’autres pourraient avoir. Depuis des années, la société gère un service d’images, de photos et de vidéos qu’elle appelle Adobe Stock, où elle rémunère les créateurs de contenu pour leur travail et propose un marché où ils peuvent le vendre aux utilisateurs d’Adobe. Au fil du temps, cette bibliothèque de contenus – dont tous les problèmes liés aux droits d’auteur sont vérifiés avant d’être inclus – s’est transformée en millions d’images, de contenus vidéo et bien plus encore. Lorsqu’est venu le temps de commencer à former ses propres modèles d’images GenAI, l’entreprise a judicieusement choisi d’utiliser ce matériel comme source.
Ce faisant, ils ont réussi à éviter le type de contrôle juridique auquel d’autres sont confrontés. Adobe a à la fois divulgué le contenu utilisé pour la formation – un problème que très peu de modèles GenAI, quels qu’ils soient, n’ont pas encore résolu – et a clairement indiqué qu’il était sans danger pour une utilisation commerciale. Ils l’ont fait via une procédure judiciaire appelée indemnité cela devient également un problème plus important dans le monde de GenAI.
Adobe a pu le faire facilement – et l’expliquer aux autres – car aucun des documents sources d’Adobe Stock ne présente de problèmes liés aux droits d’auteur. En fait, les fournisseurs de contenu reçoivent même des paiements (même si certains estiment qu’ils sont trop peu élevés) pour que leur contenu soit inclus dans l’ensemble de formation.
Le résultat net est une offre facilement explicable et compréhensible qui pourrait servir de bon exemple à d’autres qui tentent de se frayer un chemin dans les bourbiers juridiques potentiels du contenu créé par GenAI. Le travail s’inscrit également dans le cadre de la Content Authenticity Initiative (CAI), un groupe Adobe fondé en 2019 et qui compte aujourd’hui près de 2 500 membres. Le CAI s’efforce d’aider à accroître la transparence dans l’écosystème numérique grâce à des outils tels que Content Credentials, qui fonctionnent comme une étiquette nutritionnelle pour le contenu en ligne. Ces étiquettes permettent aux utilisateurs potentiels du contenu de comprendre facilement d’où il vient.
Pas vraiment le pape
Un autre facteur essentiel pour garantir une utilisation sûre de GenAI est un processus connu sous le nom de gouvernance, qui est le suivi des ensembles de données et des modèles utilisés dans les applications basées sur GenAI. Grâce à ses nombreuses décennies de collaboration avec des secteurs clés et des applications critiques, IBM a développé un ensemble très abouti de méthodologies et de bonnes pratiques en matière de gouvernance qu’elle a récemment commencé à appliquer au monde de GenAI.
Dans le cadre de la suite watson:x d’outils GenAI de l’entreprise, watsonx.governance intègre des outils qui permettent aux organisations d’enregistrer quels ensembles de données ont été utilisés pour former quels modèles, quelles modifications sont apportées au fil du temps aux ensembles de données et aux modèles, la qualité du résultat qui résulte des diverses permutations qui ont été tentées, et bien plus encore. De plus, les ajouts récents aux outils de gouvernance peuvent désormais suivre les détails internes des opérations LLM, notamment des éléments tels que la taille des données, la latence et le débit.
L’idée est d’avoir une compréhension approfondie des matières premières qui entrent dans la composition du modèle GenAI et du processus de création d’applications. Ce faisant, les outils de gouvernance peuvent aider les entreprises à éviter des problèmes potentiels tels que les hallucinations, la dérive du modèle et d’autres problèmes de sortie de données, tout en améliorant les performances. Il est intéressant de noter qu’IBM fait référence à ses capacités de gouvernance comme offrant un label nutritionnel pour l’IA.
IBM a initialement construit ces outils de gouvernance pour aider à améliorer la qualité de ses propres modèles GenAI, mais s’est vite rendu compte de la nécessité de faire fonctionner ces fonctionnalités également sur des modèles créés par d’autres. En conséquence, les outils watsonx.governance peuvent désormais fonctionner avec les modèles GenAI créés avec des outils d’Amazon, Microsoft et Google et qui fonctionnent sur les plates-formes de ces sociétés ainsi que sur OpenAI, entre autres. Pour offrir aux clients potentiels autant de flexibilité que possible, le travail de gouvernance peut être effectué soit dans le cloud, soit sur site pour n’importe lequel de ces différents modèles.
« Ensemble (provenance et gouvernance), ils peuvent apporter d’importantes améliorations juridiques, éthiques et qualitatives à la création de modèles et d’applications basés sur GenAI. Plus important encore, ils peuvent contribuer à donner un sentiment de sécurité et de clarté aux organisations qui se lancent dans ce domaine. domaine en évolution rapide »
Un autre aspect intéressant des capacités de wastonx.governance est son lien avec le monde extérieur. Par exemple, une autre nouveauté est la possibilité de suivre les changements réglementaires qui pourraient avoir une influence sur ce qu’un modèle génère. En définissant une stratégie commerciale pour un modèle donné, les outils de gouvernance peuvent informer les organisations uniquement des réglementations pertinentes dont elles ont besoin de connaître et lier ces nouveaux changements aux principaux risques, contrôles et politiques associés à un modèle donné. Collectivement, ces règles peuvent aider les entreprises à développer ou à affiner avec plus de confiance leurs efforts basés sur GenAI.
Bien que provenance et gouvernance ne soient probablement pas les deux premiers mots qui viennent à l’esprit lorsque quelqu’un pose des questions sur GenAI, il devient de plus en plus clair que ces principes doivent constituer un élément essentiel de la stratégie GenAI de toute entreprise. Ensemble, ils peuvent apporter d’importantes améliorations juridiques, éthiques et qualitatives à la création de modèles et d’applications basés sur GenAI. Plus important encore, ils peuvent contribuer à créer un sentiment de sécurité et de clarté pour les organisations qui se lancent dans ce domaine en évolution rapide.
Bob O’Donnell est le fondateur et analyste en chef de TECHnalysis Research, LLC, une société de conseil en technologie qui fournit des services de conseil stratégique et d’études de marché au secteur technologique et à la communauté financière professionnelle. Vous pouvez le suivre sur Twitter @bobodtech