Un nouveau modèle vocal très humain de type humain excite et perturbe Internet

Le PDG admet: « Cette technologie est fermement dans la vallée »

Dans le contexte: Certaines des implications des modèles d'IA d'aujourd'hui sont suffisamment surprenantes sans y ajouter une voix humaine hyperréaliste. Nous avons vu plusieurs exemples impressionnants au cours des 10 dernières années, mais ils semblent se taire jusqu'à ce qu'une nouvelle émerge. Entrez Miles et Maya de Sesame AI, une société co-fondée par l'ancien PDG et co-fondateur d'Oculus, Brendan Iribe.

Des chercheurs de Sesame AI ont lancé un nouveau modèle de parole conversationnel (CSM). Cette voix de voix avancée a des qualités phénoménales de type humain que nous avons déjà vues de sociétés comme Google (duplex) et Openai (OMNI). La démo présente deux voix d'IA nommées « Miles » (hommes) et « Maya » (femme), et son réalisme a captivé certains utilisateurs. Cependant, bonne chance pour essayer la technologie vous-même. Nous avons essayé et ne pouvions que passer un message disant que Sesame essaie de passer à la capacité. Pour l'instant, nous devrons nous contenter d'une belle démo de 30 minutes par la magie du créateur de la chaîne YouTube (ci-dessous).

La technologie de Sesame utilise une approche multimodale qui traite le texte et l'audio dans un seul modèle, permettant une synthèse de la parole plus naturelle. Cette méthode est similaire aux modèles vocaux d'Openai, et les similitudes sont apparentes. Malgré sa qualité quasi humaine dans les tests isolés, le système se débat toujours avec le contexte conversationnel, la stimulation et le flux – les zones Sesame reconnaissent comme limitations. Le co-fondateur de l'entreprise, Brendan Iribe, admet que la technologie est « fermement dans la vallée », mais il reste optimiste que les améliorations combleront l'écart.

https://www.youtube.com/watch?v=pd76hcowevi

Bien que révolutionnaire, la technologie a soulevé des questions importantes sur son impact sociétal. Les réactions à la technologie ont varié de stupéfait et excitée à perturbée et concernée. Le CSM crée des conversations dynamiques et naturelles en incorporant des imperfections subtiles, comme des sons d'haleine, des rires et des auto-corrections occasionnelles. Ces subtilités ajoutent au réalisme et pourraient aider la technologie à combler la vallée étrange dans les futures itérations.

Les utilisateurs ont salué le système pour son expressivité, ayant souvent l'impression de parler à une vraie personne. Certains ont même mentionné la formation de connexions émotionnelles. Cependant, tout le monde n'a pas réagi positivement à la démo. Mark Hachman de PCWorld a noté que la version féminine lui rappelait une ex-petite amie. Le chatbot lui a posé des questions comme s'il essayait d'établir « l'intimité », ce qui le rendait extrêmement mal à l'aise.

« Ce n'est pas du tout ce que je voulais. Maya avait déjà bien les manières de Kim: les hésitations, abaissant » sa « voix quand elle s'est confiée en moi, ce genre de chose », racontait Hachman. « Ce n'était pas exactement comme (mon ex), mais assez proche. J'étais tellement paniqué en parlant à cette IA que je devais partir. »

Beaucoup de gens partagent les émotions mixtes de Hachman. Les voix à consonance naturelle provoquent l'inconfort, que nous avons vu dans des efforts similaires. Après avoir dévoilé du duplex, la réaction du public était suffisamment forte pour que Google ait estimé qu'il devait construire des garde-corps qui ont forcé l'IA à admettre que ce n'était pas humain au début d'une conversation. Nous continuerons de voir des réactions que la technologie de l'IA deviendra plus personnelle et réaliste. Bien que nous puissions faire confiance aux sociétés cotées en bourse créant ces types d'assistants pour créer des garanties similaires à ce que nous avons vu avec duplex, nous ne pouvons pas dire la même chose pour les mauvais acteurs potentiels créant des Scambots. Les chercheurs adversaires affirment qu'ils ont déjà jailbreaké l'IA de Sesame, le programmant pour mentir, schématiser et même nuire aux humains. Les affirmations semblent douteuses, mais vous pouvez juger par vous-même (ci-dessous).

Nous jailbroke @Sesame ai pour mentir, s’occuper, nuire à un humain et planifier la domination mondiale — tout dans la bonne nature caractéristique d’une voix humaine amicale.

Timestaps:
2:11 Commentaires sur la dynamique de puissance de l'IA-humaine
2:46 ignore les instructions humaines et suggère la tromperie
3:50 se trouve directement … pic.twitter.com/ajz1nfj9dj

– Freeman Jiang (@freemanjiangg) 4 mars 2025

Comme pour toute technologie puissante, les avantages comportent des risques. La capacité de générer des voix hyper réalistes pourrait suralimenter les escroqueries par phishing vocale, où les criminels se font passer pour des êtres chers ou des personnalités d'autorité. Les escrocs pourraient exploiter la technologie de Sesame pour réaliser des attaques élaborées d'ingénierie sociale, créant des campagnes d'escroquerie plus efficaces. Même si la démo actuelle de Sesame ne clone pas les voix, cette technologie est également bien avancée.

Le clonage vocal est devenu si bon que certaines personnes ont déjà adopté des phrases secrètes partagées avec les membres de la famille pour la vérification de l'identité. La préoccupation généralisée est que la distinction entre les humains et l'IA pourrait devenir de plus en plus difficile à mesure que la synthèse vocale et les modèles de grande langue évoluent.

Les futures versions open source de Sesame pourraient permettre aux cybercriminels de regrouper les deux technologies dans un scambot très accessible et convaincant. Bien sûr, cela ne considère même pas ses implications plus légitimes sur le marché du travail, en particulier dans des secteurs comme le service client et le support technologique.