Un coût total de possession inférieur ne peut pas surmonter les lacunes des logiciels
C'est le logiciel, stupide L'année touche à sa fin et AMD espérait que ses nouvelles puissantes puces MI300X AI l'aideraient enfin à gagner du terrain sur Nvidia. Mais une enquête approfondie menée par SemiAnalysis suggère que les défis logiciels de l'entreprise permettent à Nvidia de conserver son avance confortable.
SemiAnalysis a opposé l'Instinct MI300X d'AMD aux H100 et H200 de Nvidia, observant plusieurs différences entre les puces. Pour les non-initiés, le MI300X est un accélérateur GPU basé sur l'architecture AMD CDNA 3 et est conçu pour le calcul haute performance, en particulier les charges de travail d'IA.
Sur le papier, les performances semblent excellentes pour AMD : la puce offre 1 307 TeraFLOPS de puissance de calcul FP16 et 192 Go de mémoire HBM3, surclassant les deux offres concurrentes de Nvidia. Les solutions d'AMD promettent également des coûts de possession globaux inférieurs à ceux des puces coûteuses et des réseaux InfiniBand de Nvidia.
Cependant, comme l’équipe de SemiAnalysis l’a découvert au cours de cinq mois de tests rigoureux, les spécifications brutes ne représentent pas toute l’histoire. Malgré l'impressionnant silicium du MI300X, l'écosystème logiciel d'AMD a nécessité des efforts considérables pour être utilisé efficacement. SemiAnalysis a dû s'appuyer fortement sur les ingénieurs AMD pour corriger les bugs et les problèmes en permanence lors de leurs analyses comparatives et tests.
C'est loin du matériel et des logiciels de Nvidia, qui, selon eux, ont tendance à fonctionner sans problème dès la sortie de la boîte, sans aucune intervention du personnel de Nvidia.
De plus, les problèmes logiciels ne se limitaient pas aux tests de SemiAnalysis : les clients d'AMD en ressentaient également la douleur. Par exemple, Tensorwave, le plus grand fournisseur de cloud d'AMD, a dû donner aux ingénieurs AMD accès aux mêmes puces MI300X que Tensorwave avait achetées, juste pour qu'AMD puisse déboguer le logiciel.
A lire aussi : Pas seulement le matériel : quelle est la profondeur du fossé logiciel de Nvidia ?
Les ennuis ne s'arrêtent pas là. Des problèmes d'intégration avec PyTorch à la mise à l'échelle médiocre sur plusieurs puces, les logiciels d'AMD étaient toujours en deçà de l'écosystème CUDA éprouvé de Nvidia. SemiAnalysis a également noté que de nombreuses bibliothèques AMD AI sont essentiellement des forks des bibliothèques Nvidia AI, ce qui conduit à des résultats sous-optimaux et à des problèmes de compatibilité.
« Le fossé CUDA n'a pas encore été franchi par AMD en raison de la culture d'assurance qualité (AQ) logicielle d'AMD plus faible que prévu et de son expérience prête à l'emploi difficile. Aussi vite qu'AMD tente de combler le fossé CUDA, Les ingénieurs de Nvidia travaillent des heures supplémentaires pour approfondir ce fossé avec de nouvelles fonctionnalités, bibliothèques et mises à jour de performances », lit-on dans un extrait de l'analyse.
Les analystes ont trouvé une lueur d'espoir dans les branches de développement préliminaires du BF16 pour le logiciel MI300X, qui ont montré de bien meilleures performances. Mais au moment où le code entrera en production, Nvidia aura probablement ses puces Blackwell de nouvelle génération disponibles (bien que Nvidia aurait des difficultés de croissance avec ce déploiement).
Compte tenu de ces problèmes, SemiAnalysis a répertorié un certain nombre de recommandations à AMD, en commençant par donner aux ingénieurs de Team Red davantage de ressources de calcul et d'ingénierie pour réparer et améliorer l'écosystème.
J'ai rencontré @LisaSu aujourd'hui pendant 1,5 heures alors que nous parcourions tout
Elle a reconnu les lacunes de la pile logicielle AMD
Elle a pris nos recommandations spécifiques au sérieux
Elle a posé beaucoup de questions à son équipe et à nous
De nombreux changements sont déjà en cours !
Je suis ravi de voir des améliorations à venir https://t.co/38aAwwIdEI– Dylan Patel (@dylan522p) 23 décembre 2024
Le fondateur de SemiAnalysis, Dylan Patel, a même rencontré la PDG d'AMD, Lisa Su. Il a posté sur X qu'elle comprenait le travail nécessaire pour améliorer la pile logicielle d'AMD. Il a également ajouté que de nombreux changements sont déjà en cours de développement.
Cependant, c'est une ascension difficile après des années de négligence apparente de cet élément essentiel. Même si les analystes souhaitent qu'AMD concurrence légitimement Nvidia, les « fossés CUDA » semblent maintenir Nvidia fermement en tête pour le moment.