Les robots exploitent Gemini Ai de Google pour plier l'origami à partir d'instructions simples

Gemini Robotics aide à combler cet écart logiciel insaisissable

La vue d'ensemble: Alors que les entreprises continuent d'améliorer le matériel robotique, le développement de logiciels d'IA pour vraiment donner vie à ces machines est resté un objectif insaisissable. Ceci est particulièrement décevant étant donné les progrès remarquables des modèles de langage « intelligents ». Maintenant, le laboratoire de recherche sur l'IA de Google s'est rapproché que jamais de combler cet écart.

DeepMind a dévoilé Gemini Robotics, une évolution de leur puissant modèle de langue Gemini 2.0 qui pourrait débloquer de nouvelles capacités pour les robots.

L'objectif de Gemini Robotics est de créer un système d'IA généralisé capable de contrôler directement les robots et de les aider à maîtriser le trifecta de la flexibilité, de l'interaction et de la dextérité. Le résultat pourrait être des robots qui s'adaptent à de nouvelles situations, répondent naturellement aux humains et à leur environnement, et effectuent des tâches physiques complexes.

Et ils font des progrès réguliers. Découvrez simplement cette vidéo d'Aloha 2, un robot à double bras de DeepMind, présentant ses compétences. Non seulement il peut plier précisément une figure d'origami, mais il peut également improviser lorsque les choses ne se déroulent pas comme prévu – comme lorsque le chercheur a déplacé le récipient dans lequel il était censé placer des fruits.

La meilleure partie est qu'il y parvient avec des instructions simples comme « plier un renard d'origine ». Les chercheurs n'ont pas eu à programmer manuellement cette capacité – le robot a simplement exploité sa compréhension de l'origami et comment plier le papier pour terminer la tâche.

Bien sûr, l'origami n'est que le début. Deepmind affirme que Gemini Robotics représente un saut significatif dans les trois capacités robotiques clés par rapport à leurs travaux précédents. Le modèle d'IA a plus que doublé ses performances sur les références générales des tâches par rapport à d'autres systèmes de pointe.

Qu'est-ce que cela signifie? Gemini Robotics pourrait inaugurer une nouvelle génération de robots capables de généraliser et de s'adapter à des situations imprévisibles du monde réel sans avoir besoin d'une formation sur mesure pour chaque scénario. Cette polyvalence est essentielle pour développer à l'avenir des robots à usage général vraiment utiles.

Pour réaliser ce potentiel, Google collabore également avec une entreprise appelée Apptronik. Apptronik gérera le matériel en construisant des robots humanoïdes de nouvelle génération propulsés par les Gémeaux.

https://www.youtube.com/watch?v=4mvgnmmp3c0

Ne vous attendez pas à embaucher un Butler Robot Gemini de sitôt. Pour l'instant, Deepmind garde le projet en mode recherche, publiant un système « Gemini Robotics-ER » qui permettront aux « testeurs de confiance » comme Boston Dynamics pour accéder aux capacités de raisonnement de l'IA pour leurs propres projets. Le « er » signifie un raisonnement incarné.

Les testeurs de confiance pourraient inclure des entreprises comme Boston Dynamics, Agility Robotics et Enchanted Tools.

Bien sûr, les robots du monde réel propulsés par une IA avancée soulèvent des problèmes de sécurité importants. DeepMind dit qu'il adopte une approche « holistique » inspirée des lois de la robotique d'Asimov et élabore des normes d'évaluation à travers un nouvel ensemble de données « Asimov ». L'objectif est de tester si les modèles d'IA comprennent les conséquences plus larges des actions robotiques, au-delà du simple préjudice physique.