Méfiez-vous simplement des textures floues et des violations potentielles du droit d’auteur
Pourquoi est-ce important: L’industrie créative a besoin d’un flux constant de contenu pour satisfaire ses fans, et ce contenu doit être créé d’une manière ou d’une autre. En ce qui concerne les modèles 3D, les algorithmes d’IA pourraient être d’une grande aide en réduisant considérablement le temps de génération.
En utilisant un vaste ensemble de données pour entraîner un algorithme d’apprentissage automatique, des chercheurs d’Adobe et de l’Université nationale australienne ont créé une technologie qui pourrait faire des merveilles pour la création de modèles 3D. Les chercheurs ont créé ce qu’ils considèrent comme le premier grand modèle de reconstruction (LRM) capable de prédire la forme d’un modèle 3D à partir d’une seule image bidimensionnelle, et ce en seulement 5 secondes.
Les modèles de génération 3D précédents ont été formés sur des ensembles de données à petite échelle axés sur une seule catégorie d’images, expliquent les chercheurs dans leur article. À l’inverse, leur modèle LRM possède une architecture hautement évolutive basée sur un transformateur avec 500 millions de paramètres apprenables, et il a été formé sur environ 1 million d’objets 3D disponibles dans les ensembles de données Objaverse et MVImgNet.
Cette combinaison d’un modèle haute capacité et de données de formation à grande échelle confère à l’algorithme LRM une capacité de création de contenu « hautement généralisable », expliquent les chercheurs. Le modèle a pu produire des reconstructions 3D de « haute qualité » à partir de diverses images de test, y compris des photos du monde réel, indique le journal. De plus, LRM peut prendre à la fois des images « normales » et des patchworks visuels générés par des services d’IA tels que DALL-E et Stable Diffusion comme modèle 2D d’entrée.
Selon l’auteur principal de l’étude, Yicong Hong, le LRM constitue une avancée majeure dans la reconstruction 3D d’une seule image. L’algorithme d’IA peut produire une géométrie détaillée à partir d’une vidéo ou d’une image de forme, préservant les textures complexes comme les grains de bois.
Selon les chercheurs, le LRM a des capacités potentielles de « transformation », car il pourrait être utilisé dans un large éventail d’industries, notamment le design, le divertissement et les jeux. Les concepteurs ou les artistes 3D pourraient rationaliser le processus de modélisation 3D, réduisant ainsi considérablement le temps nécessaire à la génération d’actifs pour les jeux vidéo ou les animations. La création de contenu 3D dans un secteur en évolution rapide est devenue un défi, et les sociétés d’IA se précipitent pour proposer des solutions potentielles comme le service Stable 3D récemment introduit par Stability AI.
LRM pourrait également démocratiser la modélisation 3D, dans la mesure où les utilisateurs « normaux » pourraient potentiellement développer des modèles très détaillés à partir de photos prises avec un smartphone. Bien que LRM soit encore confronté à des défis, tels que des textures floues pour les parties cachées d’une image, il ouvre un monde d’opportunités créatives et commerciales. Les chercheurs ont fourni une page avec des démos vidéo et des maillages 3D interactifs pour montrer ce que LRM peut faire dès maintenant.