Nvidia fait mieux que Unity, mais les avatars de l’IA ont encore un long chemin à parcourir
Dans le contexte: Lundi a débuté la conférence des développeurs de jeux 2024, qui s’est ouverte avec des entreprises présentant leurs créations de jeux basées sur l’IA. Unity a annoncé une collaboration avec une startup d’IA conversationnelle, Convai, et Nvidia a annoncé une série de projets utilisant ses technologies MetaHuman et d’autres technologies d’IA.
Lors de son discours d’ouverture à la GDC 2024, le PDG de Nvidia, Jensen Huang, a diffusé une brève bande-annonce/explication de Covert Protocol, une démo technologique collaborative avec le développeur du SDK AI, Inworld AI. Covert Protocol est le nom de code d’une plate-forme de développement améliorée par l’IA qu’Inworld est en train de construire. Il utilise Unreal Engine 5 et exploite plusieurs technologies d’IA de Nvidia, notamment Riva Automatic Speech Recognition et Audio2Face, pour fournir des personnages réalistes qui peuvent parler, réagir et interagir avec leur environnement en temps réel.
Covert Protocol est similaire à la démo technique du projet Neural Nexus de Convair/Unity, également présentée à la GDC. La principale différence est que Covert Protocol est bien meilleur que Neural Nexus. Graphiquement, cela ressemble à ce que l’on pourrait attendre de l’UE5 et de la technologie MetaHuman d’Epic, ce qui est époustouflant. Neural Nexus utilise Unity et semble terne et délavé.
Les modèles Covert Protocol semblent un peu plus plastiques que les démos précédentes de MetaHuman Creator. Cependant, il faut considérer que lorsque Epic a présenté des modèles très détaillés, presque photoréalistes, il n’y avait pas d’arrière-plans complexes à mâcher. Ainsi, les développeurs pourraient utiliser toutes les ressources pour rendre les visages MetaHuman aussi détaillés que possible. Covert Protocol est plus proche de ce à quoi les modèles peuvent ressembler dans un jeu fini, ce qui est quand même plutôt bon.
Le gameplay de la démo est plus une aventure mystérieuse conversationnelle que le FPS Convai présenté. Nous n’avons donc pas pu voir d’action intense, mais cela a démontré des bribes de conversations, et les animations faciales et l’intonation de la voix de l’IA étaient bien meilleures. Le discours n’est toujours pas comparable au doublage humain, mais il n’est pas non plus complètement dénué d’émotion comme les modèles de Convai. Il y a là quelques notes d’émotion.
Bien que la démonstration soit indéniablement impressionnante, elle soulève des questions valables sur l’avenir du jeu, tout comme l’a fait le projet Neural Nexus. À savoir, les joueurs désirent-ils vraiment pouvoir s’engager dans des conversations ouvertes et parfois insensées avec des avatars virtuels Chat-GTP ? Ou rejetteront-ils ces idées basées sur l’IA en faveur du doublage traditionnel et des dialogues scriptés ?
C’est difficile à dire sans produit fini. Cependant, nous pouvons déjà constater que la lassitude envers l’IA s’installe alors que les entreprises inondent quotidiennement les consommateurs d’idées de produits basées sur l’IA. Si la tendance actuelle se poursuit, l’IA pourrait bientôt tout contrôler, des jeux aux tâches quotidiennes. Les jeux développés sans réflexion et sans âme – qui s’appuient trop sur les mécanismes de l’IA – sont susceptibles d’ennuyer les joueurs plutôt que de les convertir en ventes.