« SHMT » a également réduit la consommation d’énergie de 51 % par rapport aux techniques existantes
Prospectif : Une nouvelle recherche détaille un processus qui permet à un accélérateur CPU, GPU et IA de fonctionner de manière transparente en parallèle sur des tâches distinctes. Cette avancée pionnière pourrait fournir une informatique ultra-rapide et économe en énergie, promettant de doubler la vitesse de traitement globale pour moins de la moitié du coût énergétique.
Des chercheurs de l’Université de Californie Riverside ont développé une technique appelée Multithreading simultané et hétérogène (SHMT), qui s’appuie sur le multithreading simultané contemporain. Le multithreading simultané divise un cœur de processeur en plusieurs threads, mais SHMT va plus loin en incorporant les processeurs graphiques et IA.
Le principal avantage de SHMT est que ces composants peuvent simultanément gérer des charges de travail entièrement différentes, optimisées en fonction des forces de chacun. La méthode diffère de l’informatique traditionnelle, où le CPU, le GPU et l’accélérateur d’IA fonctionnent indépendamment. Cette séparation nécessite un transfert de données entre les composants, ce qui peut entraîner des goulots d’étranglement.
Pendant ce temps, SHMT utilise ce que les chercheurs appellent un « planificateur intelligent de vol de travail soucieux de la qualité (QAWS) » pour gérer dynamiquement la charge de travail hétérogène entre les composants. Cette partie du processus vise à équilibrer performances et précision en attribuant, entre autres, des tâches nécessitant une grande précision au processeur plutôt qu’à l’accélérateur d’IA plus sujet aux erreurs. De plus, le planificateur peut réaffecter en toute transparence les tâches aux autres processeurs en temps réel si un composant prend du retard.
Lors des tests, SHMT a amélioré les performances de 95 % et réduit la consommation d’énergie de 51 % par rapport aux techniques existantes. Le résultat est une impressionnante augmentation d’efficacité de 4x. Les premiers essais de validation de principe utilisaient la carte Jetson Nano de Nvidia contenant un processeur Arm quadricœur 64 bits, un GPU Maxwell 128 cœurs, 4 Go de RAM et un emplacement M.2 abritant l’un des accélérateurs Edge TPU AI de Google. Bien qu’il ne s’agisse pas précisément d’un matériel de pointe, il reflète les configurations standard. Malheureusement, il existe certaines limites fondamentales.
« La limitation de SHMT ne réside pas dans le modèle lui-même, mais plutôt dans la capacité du programmeur à revoir l’algorithme pour présenter le type de parallélisme qui rend SHMT facile à exploiter », explique l’article.
En d’autres termes, il ne s’agit pas d’une simple implémentation matérielle universelle que n’importe quel développeur peut utiliser. Les programmeurs doivent apprendre à le faire ou développer des outils pour le faire à leur place.
Si l’on en croit le passé, ce n’est pas une tâche facile. Vous vous souvenez du passage d’Apple d’Intel au silicium basé sur Arm dans les Mac ? L’entreprise a dû investir considérablement dans sa chaîne d’outils de développement pour permettre aux développeurs d’adapter plus facilement leurs applications à la nouvelle architecture. À moins d’un effort concerté de la part des grandes technologies et des développeurs, SHMT pourrait devenir un rêve lointain.
Les avantages dépendent également fortement de la taille du problème. Alors que l’augmentation maximale de 95 % nécessitait des tailles de problèmes maximales lors des tests, les charges plus petites ont vu des rendements décroissants. De petites charges n’offraient presque aucun gain car il y avait moins de possibilités de répartir les tâches parallèles. Néanmoins, si cette technologie peut évoluer et s’imposer, les implications pourraient être énormes – depuis la réduction des coûts et des émissions des centres de données jusqu’à la réduction de l’utilisation de l’eau douce pour le refroidissement.
De nombreuses questions restent sans réponse concernant les implémentations réelles, la prise en charge matérielle, les optimisations de code et les applications de cas d’utilisation idéales. Cependant, la recherche semble prometteuse, compte tenu de l’explosion des applications d’IA générative au cours des deux dernières années et de la puissance de traitement nécessaire pour les exécuter.