Microsoft a exposé 38 téraoctets de données sensibles en travaillant sur un modèle d'IA

Les pratiques de base en matière de sécurité du cloud manquaient

Paume faciale : La formation de modèles d’IA générative nécessite une coordination et une coopération entre de nombreux développeurs, et des contrôles de sécurité supplémentaires doivent être mis en place. Microsoft manque clairement à cet égard, car l’entreprise met en danger de grandes quantités de données depuis des années.

Entre le 20 juillet 2020 et le 24 juin 2023, Microsoft a exposé une vaste mine de données sur le Web public via un référentiel public GitHub. La société de sécurité cloud Wiz a découvert et signalé le problème à Microsoft le 22 juin 2023, et la société a invalidé son jeton non sécurisé deux jours plus tard. L’incident n’est rendu public que maintenant, alors que Wiz a dévoilé l’épreuve de sécurité sur son blog officiel.

En utilisant incorrectement une fonctionnalité de la plate-forme Azure connue sous le nom de jetons de signature d’accès partagé (SAS), les chercheurs de Wiz affirment que Microsoft a accidentellement exposé 38 téraoctets de données privées sur le référentiel GitHub de transfert de modèles robustes. L’archive était utilisée pour héberger du code open source et des modèles d’IA pour la reconnaissance d’images, et les chercheurs de Microsoft en IA partageaient leurs fichiers via un jeton SAS excessivement permissif.

Les jetons SAS permettent de partager des URL signées pour accorder un accès granulaire aux données hébergées sur les instances de stockage Azure. Le niveau d’accès peut être personnalisé par l’utilisateur, et le jeton SAS particulier utilisé par les chercheurs de Microsoft pointait vers un compartiment de stockage Azure mal configuré contenant de nombreuses données sensibles.

Outre les données de formation pour ses modèles d’IA, Microsoft a exposé une sauvegarde sur disque des postes de travail de deux employés, selon Wiz. La sauvegarde comprenait des « secrets », des clés cryptographiques privées, des mots de passe et plus de 30 000 messages internes de Microsoft Teams appartenant à 359 employés de Microsoft. Au total, n’importe qui aurait pu accéder à 38 To de fichiers privés, au moins jusqu’à ce que Microsoft révoque le dangereux jeton SAS le 24 juin 2023.

Malgré leur utilité, les jetons SAS présentent un risque de sécurité en raison d’un manque de surveillance et de gouvernance. Wiz affirme que leur utilisation devrait être « aussi limitée que possible », car les jetons sont difficiles à suivre car Microsoft ne fournit pas de moyen centralisé pour les gérer via le portail Azure.

De plus, les jetons SAS peuvent être configurés pour durer « effectivement pour toujours », comme l’explique Wiz. Le premier jeton que Microsoft a engagé dans son référentiel AI GitHub a été ajouté le 20 juillet 2020 et est resté valide jusqu’au 5 octobre 2021. Un deuxième jeton a ensuite été ajouté à GitHub, avec une date d’expiration fixée au 6 octobre 2051.

L’incident de plusieurs téraoctets de Microsoft met en évidence les risques associés à la formation de modèles d’IA, selon Wiz. Cette technologie émergente nécessite « de vastes ensembles de données sur lesquelles s’entraîner », expliquent les chercheurs, de nombreuses équipes de développement gérant « d’énormes quantités de données », les partageant avec leurs pairs ou collaborant sur des projets publics open source. Des cas comme celui de Microsoft deviennent « de plus en plus difficiles à surveiller et à éviter ».

Microsoft a exposé 38 téraoctets de données sensibles en travaillant sur un modèle d’IA

Les pratiques de base en matière de sécurité du cloud manquaient