« Notre contenu est gratuit, notre infrastructure n'est pas »
Prise de l'éditeur: Les robots AI sont récemment devenus le fléau des sites Web traitant du contenu écrit ou d'autres types de médias. De Wikipedia à l'humble blog personnel, personne n'est à l'abri du réseau de réseau exercé par Openai et d'autres géants de la technologie à la recherche de contenu frais pour alimenter leurs modèles d'IA.
La Wikimedia Foundation, l'organisation à but non lucratif accueillant Wikipedia et d'autres sites Web très populaires, soulève des préoccupations concernant les robots de gratte-parole AI et leur impact sur la bande passante Internet de la Fondation. La demande de contenu organisé sur les serveurs Wikimedia s'est considérablement développée depuis le début de 2024, les sociétés d'IA consommant activement une quantité écrasante de trafic pour former leurs produits.
Les projets Wikimedia, qui comprennent certaines des plus grandes collections de connaissances et les médias librement accessibles sur Internet, sont utilisés par des milliards de personnes dans le monde. Wikimedia Commons accueille à elle seule 144 millions d'images, vidéos et autres fichiers partagés sous une licence de domaine public, et elle souffre particulièrement de l'activité rampante non réglementée des robots d'IA.
La Wikimedia Foundation a connu une augmentation de 50% de la bande passante utilisée pour les téléchargements multimédias depuis janvier 2024, le trafic provenant principalement de bots. Les programmes automatisés grattent le catalogue d'images Wikimedia Commons pour alimenter le contenu avec les modèles d'IA, les états de la fondation et l'infrastructure n'est pas conçue pour supporter ce type de trafic Internet parasite.
L'équipe de Wikimedia avait des preuves claires des effets du grattage de l'IA en décembre 2024, lorsque l'ancien président américain Jimmy Carter est décédé, et des millions de téléspectateurs ont accédé à sa page sur l'édition anglaise de Wikipedia. Les 2,8 millions de personnes lisant la biographie du président et les réalisations étaient « gérables '', a déclaré l'équipe, mais de nombreux utilisateurs diffusaient également la vidéo de 1,5 heure du débat de Carter en 1980 avec Ronald Reagan.
En raison du doublement du trafic réseau normal, un petit nombre de voies de connexion de Wikipedia vers Internet ont été congestionnées pendant environ une heure. L'équipe de fiabilité du site de Wikimedia a pu réacheminer le trafic et restaurer l'accès, mais le hiccup du réseau n'aurait pas dû se produire en premier lieu.
En examinant le problème de la bande passante lors d'une migration du système, Wikimedia a constaté qu'au moins 65% du trafic le plus à forte intensité de ressources provenait de bots, passant par l'infrastructure de cache et impactant directement le centre de données « central '' de Wikimedia.
L'organisation s'efforce de relever ce nouveau type de défi de réseau, qui affecte désormais l'ensemble de l'Internet, car les entreprises de l'IA et de la technologie grattent activement chaque once de contenu de fabrication humaine qu'ils peuvent trouver. « La livraison de contenu digne de confiance signifie également soutenir un modèle de« connaissance en tant que service », où nous reconnaissons que l'ensemble de l'Internet s'appuie sur le contenu Wikimedia», a déclaré l'organisation.
Wikimedia fait la promotion d'une approche plus responsable de l'accès aux infrastructures grâce à une meilleure coordination avec les développeurs d'IA. Les API dédiées pourraient faciliter le fardeau de la bande passante, facilitant l'identification et la lutte contre les «mauvais acteurs» dans l'industrie de l'IA.