Le modèle sonore Fugatto AI de Nvidia prétend transformer la production audio

Le modèle peut créer des sons qui n'ont jamais été entendus auparavant

Prospectif : Une équipe de chercheurs du monde entier travaillant avec Nvidia a créé ce qui est décrit comme un couteau suisse pour le son : un modèle d'IA capable de générer ou de transformer pratiquement n'importe quel mélange de musique en utilisant n'importe quelle combinaison de fichiers audio ou de messages texte.

Le nouveau modèle est connu sous le nom de Fugatto, qui est l'abréviation de Foundational Generative Audio Transformer Opus 1. Selon Nvidia, ses capacités sont sans précédent. Par exemple, Fugatto peut créer une mélodie basée uniquement sur du texte, changer l'émotion de la voix d'un chanteur ou modifier son accent, et même ajouter ou supprimer des instruments d'une chanson existante.

Fugatto pourrait révolutionner le processus de création musicale. Grâce à lui, un producteur pourrait rapidement prototyper une idée de nouvelle chanson avec des styles de voix et des instruments personnalisés, ou ajuster les effets d'une piste existante.

Ido Zmishlany, producteur et auteur-compositeur multi-platine, pense que l'IA et des outils comme Fugatto aideront à écrire le prochain chapitre de la musique. Cela dit, le modèle ne se limite pas à la production musicale.

Nvidia a mis en évidence plusieurs cas d'utilisation alternatifs, comme une agence de publicité qui l'utilise pour modifier les voix off d'une campagne afin de s'adapter à différentes régions, situations ou langues. Le modèle pourrait également contribuer à améliorer les outils d’apprentissage des langues en permettant à un utilisateur de personnaliser la voix de l’orateur, par exemple en lui faisant ressembler à un ami ou à un membre de sa famille.

Les développeurs de jeux vidéo pourraient utiliser l'outil pour créer de nouveaux éléments à la volée en fonction des entrées des joueurs, ou modifier les éléments préenregistrés pour les adapter au mieux au niveau d'action à l'écran à un moment donné.

Rafael Valle, l'un des chercheurs qui ont travaillé sur le projet, a déclaré vouloir créer un modèle qui comprend et génère le son comme le font les humains.

Plus d'un an de travail a été consacré à la création de la version complète de Fugatto, qui utilise 2,5 milliards de paramètres. Nvidia a déclaré que le mode avait été formé sur un groupe de systèmes DGX alimentés par 32 GPU Nvidia H100 Tensor Core. Malheureusement, aucun calendrier indiquant quand Fugatto pourrait être rendu public n’a été partagé.