Un nouveau modèle de conversion texte-image avec des capacités de génération d’images en une seule étape
Qu’est-ce qui vient de se passer? Stability AI accélère le rythme de sortie de ses étranges services génératifs. La société introduit un nouveau modèle de génération d’images qui semble pouvoir afficher et modifier les images d’IA aussi rapidement que l’utilisateur peut les saisir – sur la bonne plate-forme matérielle, bien sûr.
SDXL Turbo est le dernier modèle d’IA texte-image développé par Stability AI. Le service génératif en cours de réalisation utilise une nouvelle technique de distillation appelée Adversarial Diffusion Distillation (ADD) qui offre aux utilisateurs la possibilité intéressante de générer des sorties d’image en une seule étape, une amélioration significative par rapport aux 20 à 50 étapes requises par le modèle précédent. .
Stability AI a déclaré que SDXL Turbo peut générer des sorties visuelles en « temps réel » tout en conservant une haute fidélité des échantillons. Il est important de noter que le service n’est pas encore destiné à un usage commercial et qu’un document de recherche est disponible qui fournit des informations détaillées sur la nouvelle technique ADD.
En intégrant la technologie ADD, SDXL Turbo bénéficie de plusieurs avantages partagés avec les réseaux contradictoires génératifs (GAN) tout en évitant les artefacts ou le flou souvent observés dans d’autres méthodes de distillation. Stability AI a effectué des comparaisons entre différentes variantes de modèle en générant des sorties avec la même invite. Les évaluateurs humains devaient ensuite choisir le résultat qui ressemblait le plus aux instructions textuelles.
Des tests supplémentaires ont ensuite été effectués pour évaluer la qualité de l’image. Ces tests à l’aveugle ont révélé que SDXL Turbo pouvait fournir des résultats supérieurs par rapport au modèle LCM-XL en une seule étape au lieu de quatre, et surpassait même une configuration à 50 étapes de SDXL avec seulement quatre étapes. Grâce à ces résultats, Stability AI peut désormais affirmer que SDXL Turbo surpasse les modèles multi-étapes de pointe avec des exigences de calcul « considérablement » inférieures.
SDXL Turbo préserve non seulement la qualité de l’image, mais apporte également des améliorations significatives à la vitesse d’inférence. Sur un accélérateur GPU Nvidia A100 AI, le service génératif peut générer une image 512 x 512 en seulement 207 ms, y compris l’encodage rapide, le débruitage, le décodage et le FP16.
Les passionnés d’IA peuvent désormais explorer les capacités du nouveau modèle génératif sur la plateforme d’édition d’images de Stability AI, Clipdrop. Le service est compatible avec la plupart des navigateurs modernes, déclare la société, et est actuellement disponible gratuitement pendant sa phase bêta. Bien que Stability AI soit ouvert aux applications commerciales potentielles du nouveau modèle, les parties intéressées devront contacter directement l’entreprise pour plus de détails.