Deux sociétés de GPU se disputent les résultats de référence de l’autre
Une patate chaude : AMD riposte aux affirmations de Nvidia concernant l’accélérateur GPU H100, qui, selon Team Green, est plus rapide que la concurrence. Mais Team Red a déclaré que Nvidia n’avait pas raconté toute l’histoire et avait fourni d’autres résultats de référence avec des charges de travail d’inférence conformes aux normes de l’industrie.
AMD a enfin lancé ses accélérateurs Instinct MI300X, une nouvelle génération de GPU pour serveurs conçus pour fournir des niveaux de performances convaincants pour les charges de travail d’IA générative et d’autres applications de calcul haute performance (HPC). Le MI300X est plus rapide que le H100, a déclaré AMD plus tôt ce mois-ci, mais Nvidia a tenté de réfuter les déclarations du concurrent avec de nouveaux benchmarks publiés il y a quelques jours.
Nvidia a testé ses accélérateurs H100 avec TensorRT-LLM, une bibliothèque open source et un SDK conçus pour accélérer efficacement les algorithmes d’IA générative. Selon la société GPU, TensorRT-LLM a pu fonctionner 2 fois plus vite sur le H100 que sur le MI300X d’AMD avec des optimisations appropriées.
AMD propose désormais sa propre version de l’histoire, réfutant les déclarations de Nvidia sur la supériorité du H100. Nvidia a utilisé TensorRT-LLM sur H100, au lieu du vLLM utilisé dans les benchmarks AMD, tout en comparant les performances du type de données FP16 sur AMD Instinct MI300X au type de données FP8 sur H100. De plus, Team Green a inversé les données de performances publiées par AMD, passant des chiffres de latence relative au débit absolu.
AMD suggère que Nvidia a tenté de truquer le jeu, alors qu’il est toujours en train d’identifier de nouvelles voies pour débloquer les performances et la puissance brute des accélérateurs Instinct MI300. La société a fourni les derniers niveaux de performances atteints par le modèle de chatbot Llama 70B sur le MI300X, montrant un avantage encore plus élevé par rapport au H100 de Nvidia.
En utilisant le modèle de langage vLLM pour les deux accélérateurs, le MI300X a pu atteindre 2,1 fois les performances du H100 grâce aux dernières optimisations de la pile logicielle d’AMD (ROCm). La société a souligné un avantage de performances 1,4x par rapport au H100 (avec une configuration de type de données et de bibliothèque équivalente) plus tôt en décembre. vLLM a été choisi en raison de sa large adoption au sein de la communauté et de sa capacité à fonctionner sur les deux architectures GPU.
Même en utilisant TensorRT-LLM pour H100 et vLLM pour MI300X, AMD était toujours en mesure de fournir une amélioration de la latence de 1,3 fois. En utilisant un FP8 de moindre précision et TensorRT-LLM pour le H100, et un FP16 de plus haute précision avec vLLM pour le MI300X, l’accélérateur d’AMD a apparemment pu démontrer un avantage en termes de performances en termes de latence absolue.
vLLM ne prend pas en charge FP8, a expliqué AMD, et le type de données FP16 a été choisi pour sa popularité. AMD a déclaré que ses résultats montrent à quel point le MI300X utilisant FP16 est comparable au H100, même en utilisant ses meilleurs paramètres de performances avec le type de données FP8 et TensorRT-LLM.