Tous ces GPU ont besoin d'une technologie de commutation appropriée pour des hallucinations d'IA sans décalage
Bref: L'incursion sauvage d'Elon Musk dans le secteur de l'IA a abouti à la construction d'un énorme supercalculateur en un temps record. Curieusement, Nvidia note que ce supersystème n'utilise pas la norme réseau traditionnelle InfiniBand pour transférer des données comme on pourrait s'y attendre.
Le système informatique haute performance construit par xAI, doté de 100 000 GPU Hopper, s'appelle Colossus. Le système utilise la plate-forme réseau Spectrum-X de la société au lieu d'InfiniBand, que Nvidia a acquise en 2019 avec le dernier fournisseur indépendant de la technologie, Mellanox.
Nvidia a déclaré que les concepteurs de Colossus ont atteint l'échelle massive du système en grande partie grâce à Spectrum-X. Cette technologie améliore considérablement les performances du réseau d'accès direct à la mémoire tout en utilisant des dispositifs de communication Ethernet « basés sur des normes ». Colossus a été construit en un temps record et l'équipe xAI est actuellement en train de doubler ses performances en installant 100 000 GPU Hopper supplémentaires dans le système.
Les périphériques Ethernet standard sont insuffisants pour Colossus, car ils peuvent provoquer des milliers de collisions de flux et fournir un maigre débit de données de 60 %. En revanche, Spectrum-X garantit « zéro dégradation de la latence des applications » et élimine la perte de paquets due aux collisions de flux, maintenant un débit de données nettement supérieur de 95 % grâce à son système de « contrôle de la congestion ». Colossus forme de grands modèles de langage appartenant à la famille Grok et nécessite pour ce faire des performances réseau « sans précédent ».
Spectrum-X n'est pas votre technologie Ethernet ordinaire. Le cœur de la plate-forme est le commutateur Ethernet Spectrum SN5600, qui, selon Nvidia, peut prendre en charge jusqu'à 800 Gbit/s par port unique. Ce commutateur est construit sur un ASIC personnalisé Spectrum-4 et xAI l'a associé aux SuperNIC Nvidia BlueField-3 pour accélérer efficacement la communication GPU à GPU.
Le Colossus de .@xAI à Memphis, le plus grand supercalculateur d'IA au monde doté de 100 000 GPU NVIDIA Hopper, atteint de nouveaux sommets avec NVIDIA Spectrum-X Ethernet. Un témoignage de l'engagement de NVIDIA en faveur du progrès de l'#IA.
Lire la suite : https://t.co/NDSMpQKbGl pic.twitter.com/KpLpWg3Ao1
– NVIDIA (@nvidia) 28 octobre 2024
InfiniBand a été spécialement conçu pour répondre aux besoins de communication des systèmes HPC, en maintenant la perte de paquets au minimum absolu. Bien qu'Ethernet présente un taux de perte de données nettement plus élevé, il reste extrêmement populaire, même sur le marché HPC sensible à la vitesse, en raison de facteurs tels qu'une compatibilité élevée, le choix du fournisseur et des capacités de bande passante potentiellement plus élevées par port unique.
Nvidia a déclaré que sa plate-forme réseau Ethernet Spectrum-X peut accélérer le développement de systèmes d'IA puissants comme Colossus, réduisant ainsi le temps nécessaire à la mise en ligne de machines HPC massives. La technologie Spectrum-X est évolutive et peut potentiellement fournir des fonctionnalités de mise en réseau qui n'étaient auparavant disponibles que via les solutions InfiniBand.