Une toute nouvelle façon de créer des mèmes et de courtes animations pleines d’étrangeté et d’inanité
Qu’est-ce qui vient de se passer? La technologie de génération d’images a progressé rapidement ces dernières années, mais parvenir à un rendu vidéo cohérent reste un défi pour les modèles d’IA contemporains. Néanmoins, Google a récemment démontré des progrès remarquables dans ce domaine, en mettant en avant une technologie considérablement améliorée dans le domaine de la génération vidéo.
Google vient de dévoiler Lumiere, son dernier modèle d’IA pour la création vidéo. Lumiere représente une amélioration significative dans la synthèse vidéo, déclare Google, car la création d’un « mouvement réaliste, diversifié et cohérent » a toujours été l’un des principaux défis de la génération vidéo basée sur l’IA. Lumière fournit un modèle de diffusion spatio-temporelle qui semble résoudre – ou tenter de résoudre – ce problème.
La dernière incursion de Mountain View dans le secteur de l’IA générative est suffisamment performante pour la génération de texte en vidéo, le rendu d’image en vidéo et la génération stylisée. Les utilisateurs peuvent créer un tout nouveau clip vidéo en écrivant une invite textuelle, en fournissant une image source (peu importe à quel point cette image est authentique, réaliste ou modifiée) ou en utilisant une image de référence comme style cible.
Lumiere utilise une nouvelle « architecture U-Net espace-temps » qui génère l’intégralité du clip vidéo en une seule fois, via un seul passage dans le modèle d’IA. Par rapport aux modèles existants, qui synthétisent différentes images clés pour la même vidéo, l’approche de Lumiere permet d’obtenir des résultats de conversion texte-vidéo de pointe, avec beaucoup moins de bizarreries qu’auparavant.
Les fonctionnalités supplémentaires de Lumiere incluent la stylisation vidéo, qui transforme une vidéo source en différents matériaux, et Cinemagraphs, qui permet d’animer une partie limitée et mise en évidence d’une image source. La fonction Video Inpainting peut modifier des parties individuelles d’une vidéo source, comme changer les couleurs, les matériaux ou les textures de la robe d’une fille.
Comme le souligne Google dans le document officiel, Lumiere peut générer des vidéos « basse résolution », 1 024 x 1 024, d’une durée maximale de 5 secondes. Les modèles vidéo d’IA précédents étaient capables de générer des vidéos plus longues, mais Google affirme que les utilisateurs préféraient la sortie de Lumiere aux modèles d’IA existants. Mountain View indique que Lumiere a été formé sur un ensemble de données contenant 30 millions de vidéos ainsi que leurs descriptions textuelles, bien que l’origine (ou l’état du droit d’auteur) de ces vidéos de 5 secondes obtenues soit actuellement inconnue.
L’article des chercheurs de Google met en évidence un « impact sociétal » potentiel de la technologie d’IA générative vidéo comme Lumiere, affirmant que l’objectif principal du modèle est de permettre aux « utilisateurs novices » de générer du contenu visuel de nouvelles manières créatives et flexibles. De nouveaux outils de détection des biais et des cas d’utilisation « malveillants » des modèles génératifs vidéo devraient cependant être développés au plus vite pour ne pas gâcher le plaisir.



