Les soins de santé adoptent Whisper, malgré les avertissements sur les risques d'hallucinations
Paume faciale : Ce n’est un secret pour personne que l’IA générative est sujette aux hallucinations, mais à mesure que ces outils font leur chemin dans des contextes critiques comme les soins de santé, la sonnette d’alarme sonne. Même OpenAI met en garde contre l’utilisation de son outil de transcription dans des contextes à haut risque. Malgré ces avertissements, le secteur médical a progressé en adoptant des outils basés sur Whisper.
L'outil de transcription d'OpenAI appelé Whisper a été critiqué pour un défaut important : sa tendance à générer du texte fabriqué, appelé hallucinations. Malgré les affirmations de l'entreprise concernant « la robustesse et la précision au niveau humain », les experts interrogés par Associated Press ont identifié de nombreux cas dans lesquels Whisper invente des phrases entières ou ajoute un contenu inexistant à des transcriptions.
Le problème est particulièrement préoccupant compte tenu de l’utilisation répandue de Whisper dans diverses industries. L'outil est utilisé pour traduire et transcrire des entretiens, générer du texte pour les technologies grand public et créer des sous-titres vidéo.
Le plus alarmant est peut-être la précipitation des centres médicaux à mettre en œuvre des outils basés sur Whisper pour transcrire les consultations des patients, même si OpenAI a émis des avertissements explicites contre l'utilisation de l'outil dans des « domaines à haut risque ».
Au lieu de cela, le secteur médical a adopté les outils basés sur Whisper. Nabla, une société ayant des bureaux en France et aux États-Unis, a développé un outil basé sur Whisper utilisé par plus de 30 000 cliniciens et 40 systèmes de santé, dont la clinique Mankato du Minnesota et l'hôpital pour enfants de Los Angeles.
Martin Raison, directeur de la technologie de Nabla, a déclaré que son outil avait été affiné sur le langage médical pour transcrire et résumer les interactions avec les patients. Cependant, la société efface l’audio original pour des « raisons de sécurité des données », rendant impossible la comparaison de la transcription générée par l’IA avec l’enregistrement original.
Jusqu'à présent, l'outil a été utilisé pour transcrire environ 7 millions de visites médicales, selon Nabla.
L’utilisation d’outils de transcription d’IA dans des contextes médicaux a également soulevé des problèmes de confidentialité. La législatrice de l'État de Californie, Rebecca Bauer-Kahan, a partagé son expérience en refusant de signer un formulaire autorisant le médecin de son enfant à partager l'audio de la consultation avec des fournisseurs, notamment Microsoft Azure. « Le communiqué précisait très clairement que les entreprises à but lucratif auraient le droit d'avoir cela », a-t-elle déclaré à l'Associated Press. « Je me suis dit 'absolument pas'. »
L'étendue du problème d'hallucination de Whisper n'est pas entièrement connue, mais les chercheurs et les ingénieurs ont signalé de nombreux cas de problème dans leurs travaux. Un chercheur de l’Université du Michigan les a observés dans 80 % des transcriptions de réunions publiques examinées. Un ingénieur en apprentissage automatique a rencontré des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper analysées, tandis qu'un autre développeur les a trouvées dans presque toutes les 26 000 transcriptions créées à l'aide de l'outil.
Une étude menée par le professeur Allison Koenecke de l'Université Cornell et le professeur adjoint Mona Sloane de l'Université de Virginie a examiné des milliers de courts extraits audio, découvrant que près de 40 pour cent des hallucinations étaient jugées nocives ou inquiétantes en raison d'une mauvaise interprétation ou d'une fausse déclaration potentielle des locuteurs.
Des exemples de ces hallucinations incluent l'ajout de contenu violent là où il n'en existait pas dans l'audio original, l'invention de commentaires racistes non présents dans le discours original et la création de traitements médicaux inexistants.
Dans un cas, Whisper a transformé une simple déclaration concernant un garçon prenant un parapluie en un scénario violent impliquant une croix et un couteau. Dans un autre cas, l’outil a ajouté des descripteurs raciaux à une déclaration neutre sur des personnes. Whisper a également fabriqué un médicament fictif appelé « antibiotiques hyperactivés » dans l'une de ses transcriptions.
De telles erreurs pourraient avoir « des conséquences très graves », en particulier en milieu hospitalier, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l'administration Biden jusqu'à l'année dernière. « Personne ne veut d'un diagnostic erroné », a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, dans le New Jersey. « Il devrait y avoir une barre plus haute. »
L'influence de Whisper s'étend bien au-delà d'OpenAI. L'outil est intégré à certaines versions de ChatGPT et est proposé en tant que service intégré sur les plateformes de cloud computing Oracle et Microsoft. En seulement un mois, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois depuis la plateforme d'IA open source HuggingFace.
Les critiques disent qu’OpenAI doit remédier immédiatement à cette faille. « Cela semble résoluble si l'entreprise est prête à y donner la priorité », a déclaré William Saunders, un ancien ingénieur d'OpenAI qui a quitté l'entreprise en février en raison d'inquiétudes quant à son orientation.
« C'est problématique si vous diffusez cela et que les gens sont trop confiants quant à ce qu'il peut faire et l'intègrent dans tous ces autres systèmes. »