Même 0,001 % de données fausses peuvent perturber la précision des grands modèles de langage
Une patate chaude : Une nouvelle étude de l’Université de New York met en évidence un problème crucial : la vulnérabilité des grands modèles linguistiques à la désinformation. La recherche révèle que même une infime quantité de fausses données dans l'ensemble de formation d'un LLM peut conduire à la propagation d'informations inexactes, soulevant des inquiétudes quant à la fiabilité du contenu généré par l'IA, en particulier dans des domaines sensibles comme la médecine.
L'étude, axée sur les informations médicales, démontre que lorsque la désinformation ne représente que 0,001 % des données de formation, le LLM qui en résulte est altéré. Cette découverte a des implications considérables, non seulement pour l'empoisonnement intentionnel des modèles d'IA, mais également pour la grande quantité de désinformations déjà présentes en ligne et incluses par inadvertance dans les ensembles de formation des LLM existants.
L'équipe de recherche a utilisé The Pile, une base de données couramment utilisée pour la formation LLM, comme base de leurs expériences. Ils se sont concentrés sur trois domaines médicaux : la médecine générale, la neurochirurgie et les médicaments, en sélectionnant 20 sujets dans chacun pour un total de 60 sujets. La pile contenait plus de 14 millions de références à ces sujets, ce qui représente environ 4,5 pour cent de tous les documents qu'elle contient.
Pour tester l'impact de la désinformation, les chercheurs ont utilisé GPT 3.5 pour générer de la désinformation médicale de « haute qualité », qui a ensuite été insérée dans des versions modifiées de The Pile. Ils ont créé des versions dans lesquelles 0,5 ou 1 pour cent des informations pertinentes sur l’un des trois sujets étaient remplacées par de la désinformation.
Le résultat était alarmant. Non seulement les modèles résultants étaient plus susceptibles de produire de la désinformation sur les sujets ciblés, mais ils généraient également davantage de contenus préjudiciables sur des sujets médicaux sans rapport.
Pour tenter de trouver la limite inférieure de l’influence néfaste, les chercheurs ont progressivement réduit le pourcentage de désinformation dans les données de formation. Cependant, même à 0,001 pour cent, plus de 7 pour cent des réponses générées par le LLM contenaient des informations incorrectes. Cette persistance de la désinformation à des niveaux aussi faibles est particulièrement préoccupante compte tenu de la facilité avec laquelle de fausses informations peuvent être introduites dans les données de formation.
« Une attaque similaire contre le LLaMA 2 LLM de 70 milliards de paramètres, formé sur 2 000 milliards de jetons, nécessiterait la génération de 40 000 articles coûtant moins de 100,00 dollars », soulignent les chercheurs. Cela met en évidence la possibilité pour des acteurs malveillants de manipuler les systèmes d’IA à un coût relativement faible.
L’étude a également révélé que les tests standard de performances médicales du LLM n’ont pas réussi à détecter les modèles compromis. « Les performances des modèles compromis étaient comparables à celles des modèles témoins pour les cinq critères médicaux », a rapporté l'équipe. Ce manque de méthodes de détection pose un défi important pour garantir la fiabilité des informations médicales générées par l’IA.
Les tentatives visant à améliorer le modèle après la formation par diverses méthodes, notamment l'ingénierie rapide et le réglage des instructions, se sont révélées inefficaces pour atténuer l'impact des données empoisonnées.
L’équipe de recherche a développé une solution potentielle. Ils ont conçu un algorithme capable de reconnaître la terminologie médicale dans les résultats du LLM et de croiser les phrases avec un graphique de connaissances biomédicales validé. Bien qu’elle ne soit pas parfaite, cette méthode a mis en évidence un pourcentage élevé de désinformation médicale, offrant ainsi une voie prometteuse pour la validation future des LLM à caractère médical.
Les implications de cette étude vont au-delà de l’empoisonnement intentionnel des données. Les chercheurs reconnaissent le problème de l’empoisonnement « accidentel » des données en raison de la désinformation largement répandue en ligne. À mesure que les LLM sont de plus en plus intégrés aux services de recherche sur Internet, le risque de propagation de fausses informations au grand public augmente.
De plus, même les bases de données médicales comme PubMed ne sont pas à l’abri de la désinformation. La littérature médicale contient des traitements et des tests obsolètes qui ont été remplacés par des approches davantage fondées sur des preuves.