La technologie ne cesse de nous surprendre, et la dernière mise à jour de ChatGPT-4 ne fait pas exception. OpenAI a récemment dévoilé une fonctionnalité de vision impressionnante qui promet de révolutionner notre interaction avec les images. En tant que passionné de pop culture et de nouvelles technologies, j’ai décidé de mettre cette fonctionnalité à l’épreuve avec sept prompts différents. Spoiler alert : j’ai été bluffé par les résultats.
1. Reconnaissance d’objets
Pour ce premier test, j’ai généré une image d’une tasse de café rouge fumante sur une soucoupe, posée sur une table en bois dans un café flou en arrière-plan. ChatGPT-4 a décrit : “Cette image montre une tasse de café fumant dans une tasse rouge et une soucoupe placée sur une table en bois rustique. L’arrière-plan est flou, dépeignant un cadre intérieur cosy avec des gens assis et conversant dans un café au design unique.” Non seulement la description est précise, mais elle ajoute aussi une touche narrative, rendant la scène encore plus vivante.
2. Reconnaissance de texte (OCR)
L’OCR est une vieille technologie, mais j’ai voulu voir comment GPT-4 se débrouillait avec une image d’un panneau en bois usé portant l’inscription « Welcome to Oakville ». ChatGPT-4 a non seulement lu le texte correctement mais a aussi ajouté : “Le panneau semble vieilli, avec une finition rustique et des signes d’usure, ajoutant à son charme nostalgique. Il est partiellement entouré de verdure, indiquant qu’il pourrait être placé à l’entrée d’une ville ou d’une communauté nommée Oakville.” Impressionnant de détails.
3. Reconnaissance faciale
J’ai utilisé une image générée d’une femme dans la quarantaine avec des cheveux noirs et des yeux bruns chaleureux, affichant un sourire amical. ChatGPT-4 a décrit : “Cette image est un portrait en gros plan d’une femme souriante aux cheveux noirs bouclés. Son expression est amicale, avec ses yeux regardant directement la caméra. L’arrière-plan est flou, mettant l’accent sur le sujet.” En demandant plus de détails, il a même estimé son âge et son état émotionnel avec justesse.
4. Détection d’émotions
Pour ce test, j’ai utilisé l’image d’un homme âgé avec une expression rêveuse. GPT-4 a décrit : “Cette image est un portrait d’un homme âgé assis sur un banc à l’extérieur, probablement dans un parc. L’expression de l’homme est réfléchie, avec une légère touche de mélancolie ou de contemplation.” Une description précise qui capture bien l’émotion de l’image.
5. Compréhension de scènes
J’ai voulu voir comment GPT-4 décrivait une scène de marché en plein air. Il a brillamment écrit : “Cette image représente un marché de producteurs animé en plein air par une journée ensoleillée. Divers étals sont installés sous des tentes, présentant une abondance de produits frais.” Une description vivante et détaillée.
6. Évaluation de la qualité d’image
J’ai généré quatre images similaires d’un paysage mais avec des résolutions et compositions différentes. GPT-4 a décrit chaque image individuellement, notant les variations de lumière et de couleur. Bien qu’il n’ait pas saisi l’objectif du test, sa capacité à comparer et à décrire chaque image était impressionnante.
7. Détection multi-objets
Pour ce test crucial, j’ai utilisé une image d’un bureau encombré. GPT-4 a parfaitement décrit chaque élément, allant même jusqu’à identifier la position de mes lunettes sur le bureau. Une performance impeccable pour une scène complexe.
Conclusion
Les modèles de vision d’IA ont souvent leurs limites, mais GPT-4o les surmonte avec brio. Sa capacité à traiter des images de manière multimodale change la donne. Imaginez les possibilités avec des lunettes intelligentes, fusionnant le réel et le digital. Oubliez les smartphones, la vision est l’avenir.