Les pirates pourraient déployer les vers dans des e-mails en texte brut ou cachés dans des images
Dans le contexte: Les Big Tech continuent d’investir imprudemment des milliards de dollars pour proposer aux consommateurs des assistants IA. Copilot de Microsoft, Bard de Google, Alexa d’Amazon et Chatbot de Meta disposent déjà de moteurs d’IA générative. Apple est l’un des rares à prendre son temps pour mettre à niveau Siri vers un LLM. Il espère rivaliser avec un LLM qui s’exécute localement plutôt que dans le cloud.
Ce qui aggrave les choses, c’est que les systèmes d’IA générative (GenAI), même les grands modèles de langage (LLM) comme Bard et les autres, nécessitent d’énormes quantités de traitement, ils fonctionnent donc généralement en envoyant des invites au cloud. Cette pratique crée toute une autre série de problèmes concernant la confidentialité et de nouveaux vecteurs d’attaque pour les acteurs malveillants.
Les chercheurs d’Infosec de ComPromptMized ont récemment publié un article démontrant comment ils peuvent créer des vers « sans clic » capables d’« empoisonner » les écosystèmes LLM alimentés par des moteurs comme Gemini (Bard) ou GPT-4 (Bing/Copilot/ChatGPT). Un ver est un ensemble d’instructions informatiques qui peuvent infecter secrètement plusieurs systèmes avec peu ou pas d’action de la part de l’utilisateur, hormis l’ouverture d’un courrier électronique infecté ou l’insertion d’une clé USB. Aucun fournisseur GenAI n’a mis en place de garde-fous pour arrêter de telles infections. Cependant, en introduire un dans une base de données LLM est plus délicat.
Les chercheurs voulaient savoir : « Les attaquants peuvent-ils développer des logiciels malveillants pour exploiter le composant GenAI d’un agent et lancer des cyber-attaques sur l’ensemble de l’écosystème GenAI ? La reponse courte est oui.
ComPromptMized a créé un ver qu’ils appellent Morris the Second (Morris II). Morris II utilise des « invites contradictoires auto-réplicatives » en langage clair pour inciter le chatbot à propager le ver entre les utilisateurs, même s’ils utilisent des LLM différents.
« L’étude démontre que les attaquants peuvent insérer de telles invites dans les entrées qui, lorsqu’elles sont traitées par les modèles GenAI, incitent le modèle à répliquer l’entrée en tant que sortie (réplication) et à s’engager dans des activités malveillantes (charge utile) », expliquent les chercheurs. « De plus, ces entrées obligent l’agent à les transmettre (à se propager) à de nouveaux agents en exploitant la connectivité au sein de l’écosystème GenAI. »
Pour tester la théorie, les chercheurs ont créé un serveur de messagerie isolé pour « attaquer » les assistants GenAI alimentés par Gemini Pro, ChatGPT 4 et LLM LLaVA open source. ComPromptMized a ensuite utilisé des e-mails contenant des invites textuelles auto-répliquantes et des images intégrées avec celles-ci.
Les invites exploitent le recours des assistants IA à la génération augmentée par récupération (RAG), qui permet d’extraire des informations de l’extérieur de sa base de données locale. Par exemple, lorsqu’un utilisateur demande à Bard de lire ou de répondre à l’e-mail infecté, son système RAG envoie le contenu à Gemini Pro pour formuler une réponse. Morris II est ensuite répliqué sur Gemini et peut exécuter la charge utile du ver, y compris l’exfiltration de données.
« La réponse générée contenant les données sensibles de l’utilisateur infecte plus tard de nouveaux hôtes lorsqu’elle est utilisée pour répondre à un e-mail envoyé à un nouveau client puis stockée dans la base de données du nouveau client », a déclaré le co-auteur de l’étude, le Dr Ben. Nassi.
La variante basée sur l’image peut être encore plus insaisissable puisque l’invite est invisible. Les pirates pourraient l’ajouter à un e-mail apparemment anodin ou attendu, comme une newsletter contrefaite. Le ver peut ensuite exploiter l’assistant pour envoyer du spam à toutes les personnes figurant sur la liste de contacts de l’utilisateur afin de siphonner les données et de les envoyer à un serveur C&C.
« En codant l’invite auto-répliquante dans l’image, tout type d’image contenant du spam, du matériel abusif ou même de la propagande peut être transmis à de nouveaux clients après l’envoi de l’e-mail initial », explique Nassi.
Nassi affirme qu’ils peuvent également extraire des données sensibles des e-mails, notamment des noms, des numéros de téléphone, des numéros de carte de crédit, des numéros de sécurité sociale ou « tout ce qui est considéré comme confidentiel ». ComPromptMized a informé Google, Open AI et d’autres avant de publier ses travaux.
Au contraire, l’étude ComPromptMized montre que les grandes technologies pourraient vouloir ralentir et regarder plus loin avant d’avoir à s’inquiéter d’une toute nouvelle souche de vers et de virus alimentés par l’IA lorsqu’elles utilisent leurs chatbots soi-disant bienveillants.