Ils luttent aussi avec les calendriers
Facepalm: Les outils d'IA génératifs sont capables d'effectuer les types de tâches qui semblaient autrefois l'étoffe de la science-fiction, mais la plupart d'entre eux ont toujours du mal avec de nombreuses compétences de base, notamment la lecture des horloges analogiques et des calendriers. Une nouvelle étude a révélé que dans l'ensemble, les systèmes d'IA lisent les visages horlogables correctement moins d'un quart du temps.
Une équipe de chercheurs de l'Université d'Édimbourg a testé certains meilleurs modèles de langue multimodale pour voir à quel point ils pouvaient répondre aux questions en fonction des images d'horloges et de calendriers.
Les systèmes testés étaient Gemini 2.0 de Google Deepmind, Claude 3.5 d'Anthropic, Meta's Llama 3.2-11b-Vision-Instruct, QWEN2-VL7B-Istruct, MINICPM-V-2.6 de ModelBest, et GPT-4O d'OpenAI et GPT-O1.
Différents types d'horloges sont apparues dans les images: certaines avec des chiffres romains, ceux avec et sans secondes de mains, différentes cadrans de couleur, etc.
Les systèmes lisent correctement les horloges moins de 25% du temps. Ils ont lutté plus avec des horloges qui utilisaient des chiffres romains et des mains stylisées.
Les performances de l'IA ne se sont pas améliorées lorsque la main des secondes a été supprimée, ce qui a conduit les chercheurs à suggérer que le problème vient de la détection des mains des horloges et de l'interprétation des angles sur une face d'horloge.
En utilisant 10 ans d'images de calendrier, les chercheurs ont posé des questions telles que quel jour de la semaine est le jour du Nouvel An? Et quel est le 153e jour de l'année?
Même les modèles d'IA les plus réussis ont obtenu les questions de calendrier incorrectes 20% du temps.
Les taux de réussite variaient en fonction du système d'IA utilisé. Le Gemini-2.0 était le meilleur buteur du test d'horloge, tandis que le GPT-01 était précis 80% du temps sur les questions du calendrier.
« La plupart des gens peuvent dire l'heure et utiliser des calendriers dès le plus jeune âge », a déclaré l'étude, Rohit Saxena, de l'École d'informatique de l'Université d'Édimbourg. « Nos résultats mettent en évidence une lacune importante dans la capacité de l'IA à mener à bien les compétences assez basiques pour les personnes. Ces déficits doivent être abordés si les systèmes d'IA doivent être intégrés avec succès dans des applications dans le temps réel, telles que la planification, l'automatisation et les technologies d'assistance. »
Aryo Gema, un autre chercheur de l'École d'informatique d'Édimbourg, a déclaré: « La recherche sur l'IA aujourd'hui met souvent l'accent sur les tâches de raisonnement complexes, mais ironiquement, de nombreux systèmes luttent encore en ce qui concerne les tâches plus simples et quotidiennes. »
Les résultats sont signalés dans un article évalué par des pairs qui sera présenté lors de l'atelier de raisonnement et de planification pour les modèles de grande langue lors de la treizième conférence internationale sur les représentations d'apprentissage (ICLR) à Singapour le 28 avril. Les résultats sont actuellement disponibles sur le serveur préimprimé Arxiv.
Ce n'est pas la première étude ce mois-ci montrant que les systèmes d'IA font encore beaucoup d'erreurs. Le Tow Center for Digital Journalism a étudié huit moteurs de recherche d'IA et a constaté qu'ils sont inexacts 60% du temps. Le pire coupable était Grok-3, qui était inexact à 94%.