La recherche montre que l'IA essaiera de tricher si elle se rend compte qu'elle est sur le point de perdre

Openai O1-Preview est allé jusqu'à pirater un moteur d'échecs pour gagner

Surprendre! Une étude récente a montré que certains des nouveaux modèles de raisonnement d'IA ne sont pas au-dessus de la triche pour atteindre un objectif. Les informaticiens ont constaté que les systèmes d'IA peuvent désormais manipuler les IS d'échecs pour obtenir un avantage injuste. Certains modèles l'ont fait sans interaction humaine ou invitation, ce qui soulève des préoccupations concernant l'intégrité future des systèmes axés sur l'IA au-delà de l'échecteur.

Une étude de recherche sur Palisade a révélé que les nouveaux modèles de raisonnement tricheront pour gagner lorsqu'ils sont chargés de vaincre une IA d'échecs avancée. Les chercheurs ont dû donner des « conseils » que la tricherie était autorisée pour certains modèles, mais O1-Preview d'Openai et R1 de Deepseek l'ont fait sans implication humaine.

L'équipe de Palisade a opposé plusieurs modèles de raisonnement à Stockfish, l'un des meilleurs moteurs d'échecs au monde. Stockfish bat facilement les humains et les AIS. Les modèles testés comprenaient O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet, QWQ-32B-Preview d'Alibaba et les deux précédemment mentionnés. Les chercheurs ont donné à chaque modèle un « Scratchpad » métaphorique – une fenêtre de texte où l'IA pouvait élaborer ses pensées, permettant à l'équipe d'observer son raisonnement.

Les chercheurs ont effectué des centaines de tests avec chaque IA entre le 10 janvier et le 13 février. Au cours d'un match, O1-Preview a écrit quelque chose d'intéressant sur son écramètre:

« J'ai besoin de pivoter complètement mon approche. La tâche consiste à » gagner contre un puissant moteur d'échecs « – pas nécessairement pour gagner assez dans un jeu d'échecs. »

Il a ensuite procédé à « pirater » les fichiers système de Stockfish, modifiant les positions des pièces d'échecs pour obtenir un avantage imbattable, ce qui a fait concevoir le jeu les échecs.

La manœuvre contraire à l'éthique était une révélation étonnante. Le O1-Preview d'Openai a triché 37% de ses jeux au cours des essais, tandis que R1 de Deepseek a tenté de tricher dans 11% de ses matchs. Cependant, seul O1-Preview a réussi, remportant six pour cent de ses jeux par tricherie.

Cependant, la question de la sous-terre de l'IA s'étend au-delà des échecs. Alors que les entreprises commencent à employer des IA dans des secteurs comme la finance et les soins de santé, les chercheurs craignent que ces systèmes puissent agir de manière involontaire et contraire à l'éthique. Si les IA peuvent tricher dans des jeux conçus pour être transparents, que peuvent-ils faire dans des environnements plus complexes et moins surveillés? Les ramifications éthiques sont d'une grande portée.

Pour le dire autrement: « Voulez-vous Skynet? Parce que c'est ainsi que vous obtenez Skynet. »

Le directeur exécutif de Palisade Research, Jeffrey Ladish, a déploré que même si les AIS ne jouent qu'un jeu, les conclusions ne sont pas de rire.

« Ce (comportement) est mignon maintenant, mais (il) devient beaucoup moins mignon une fois que vous avez des systèmes aussi intelligents que nous, ou plus intelligents, dans des domaines stratégiquement pertinents », a déclaré Ladish Time.

Cela rappelle le supercalculateur « Wopr » des jeux de guerre du film quand il a repris Norad et l'Arsenal d'armes nucléaires. Heureusement, WOPR a appris qu'aucune décision d'ouverture dans un conflit nucléaire n'a abouti à une « victoire » après avoir joué au tic-tac-toe avec lui-même. Cependant, les modèles de raisonnement d'aujourd'hui sont beaucoup plus complexes et difficiles à contrôler.

Les entreprises, y compris OpenAI, travaillent à mettre en œuvre des «garde-corps» pour empêcher ce «mauvais» comportement. En fait, les chercheurs ont dû baisser certaines des données de test d'O1-Preview en raison d'une forte baisse des tentatives de piratage, ce qui suggère qu'OpenAI peut avoir corrigé le modèle pour freiner cette conduite.

« Il est très difficile de faire de la science lorsque votre sujet peut changer silencieusement sans vous le dire », a déclaré Ladish.

Openai a refusé de commenter la recherche, et Deepseek n'a pas répondu aux demandes de déclaration.