La mise à jour Stable Diffusion 3.0 perfectionne (presque) la typographie dans les images générées

Stability AI diffuse la frontière entre le texte réel et le texte rendu avec celui-ci

Pourquoi est-ce important: La génération d’images IA laisse derrière elle l’étrange vallée. Stability AI progresse rapidement, rendant les faux visuels vraiment impossibles à distinguer de la réalité avec son dernier projet. Cependant, comme des concurrents comme Dall-E et Midjourney améliorent également leurs capacités, il est évident qu’il ne s’agit pas seulement d’obtenir le texte le plus clair ; il s’agit de diriger la prochaine vague d’innovation en matière d’IA.

Stability AI séduit les passionnés d’art de l’IA avec un aperçu en avant-première de son modèle texte-image de nouvelle génération, Stable Diffusion 3.0. La startup a ouvert une liste d’attente pour un accès anticipé au système d’IA mis à niveau, qui promet des images plus nettes, une gestion multi-sujets améliorée et un rendu de texte considérablement amélioré.

La typographie a longtemps été un talon d’Achille pour les modèles de génération d’images d’IA comme Stable Diffusion, même s’ils sont devenus presque impossibles à distinguer de la réalité sous d’autres aspects. Cependant, Stability AI affirme que la nouvelle édition 3.0 offrira une amélioration substantielle dans le rendu du texte lisible et garantira une orthographe précise dans les visuels générés.

Un exemple mis en avant dans le communiqué de presse a particulièrement retenu notre attention : une image d’un bus urbain qui semble pratiquement impossible à distinguer d’une photographie réelle, complétée par un rendu impeccable du texte sur le panneau routier et sur le côté du véhicule. Même s’il reste quelques imperfections mineures (la plaque d’immatriculation semble déformée), la qualité globale représente un bond en avant par rapport aux prédécesseurs du modèle.

Cela ne semble pas surprenant si l’on considère que, sous le capot, Stable Diffusion 3.0 représente une refonte architecturale majeure par rapport à ses prédécesseurs. Il utilise une nouvelle approche de « transformateur de diffusion », similaire au récent modèle Sora d’OpenAI – un changement radical par rapport à l’architecture Stable Diffusion originale, selon Emad Mostaque, PDG de Stability AI, qui s’est entretenu avec VentureBeat.

Stable Diffusion 3.0 intègre également d’autres techniques de pointe telles que la « correspondance de flux » – une nouvelle méthode pour entraîner les systèmes d’IA à mieux modéliser les distributions de données complexes. Les chercheurs à l’origine de la correspondance de flux affirment qu’elle permet une formation plus rapide, un échantillonnage plus efficace et des performances globales améliorées par rapport aux méthodes de diffusion traditionnelles.

La suite de modèles remaniée couvrira une gamme de 800 millions à 8 milliards de paramètres lorsqu’elle verra finalement une version complète. Mais avant ce lancement public, Stability AI met le modèle à l’épreuve avec un aperçu fermé pour recueillir des commentaires et renforcer les garde-corps de sécurité. La startup a mis en place de nombreuses mesures de protection pour cette version préliminaire, et d’autres sont en cours de développement grâce à la collaboration avec des chercheurs, des experts et, bien sûr, sa propre communauté.

Mais les ambitions de Stability AI ne s’arrêtent pas là. Mostaque a laissé entendre que le nouveau modèle de diffusion stable soutiendrait les prochains travaux de l’entreprise en matière de modélisation 3D, de synthèse vidéo et d’autres nouvelles capacités visuelles de l’IA.

Les personnes intéressées peuvent s’inscrire sur la liste d’attente.