NVIDIA ConnectX
HeimHeim > Blog > NVIDIA ConnectX

NVIDIA ConnectX

Mar 26, 2023

Manchmal möchte man einfach schnell sein. Wir haben kürzlich über 400-Gbit/s-Netzwerke gesprochen, da es sich um eine neue Fähigkeit handelt, die PCIe Gen5 x16-Steckplätze bewältigen können. Heute werfen wir einen Blick auf die Einrichtung mit NDR 400Gbps Infiniband/400GbE.

Ein besonderer Dank geht an PNY. Das wussten wir vor einem Jahr noch nicht, aber PNY verkauft nicht nur NVIDIA-Workstation-GPUs, sondern auch seine Netzwerkkomponenten. Wir arbeiteten an einem 400-GbE-Switch und in den Diskussionen kam man zu dem Schluss, dass wir diese Karten als Teil dieses Prozesses überprüfen sollten. Das klingt vielleicht einfach, aber es ist ein großer Sprung vom 100-GbE-Netzwerk zum 400-GbE-Netzwerk, und die MCX75310AAS-NEAT-Karten sind derzeit ein heißes Gut, da viele Leute High-End-Netzwerkausrüstung einsetzen möchten.

Die ConnectX-7 (MCX75310AAS-NEAT) ist eine PCIe Gen5 x16 Low-Profile-Karte. Wir haben mit der Halterung in voller Höhe fotografiert, im Lieferumfang ist jedoch eine Halterung mit niedrigem Profil enthalten.

Etwas, das Aufmerksamkeit erregen sollte, ist die Größe der Kühllösung. Um einen Eindruck davon zu vermitteln, wie früh wir hier sind, haben wir die Leistungsdaten des ConnectX-7 nachgeschlagen und konnten sie nicht finden. Wir haben NVIDIA über offizielle Kanäle nach den Spezifikationen gefragt. Wir veröffentlichen diesen Artikel ohne sie, da es den Anschein hat, als ob NVIDIA derzeit nicht sicher ist, was es ist. Etwas seltsam ist, dass NVIDIA in seinem Datenblatt nicht nur die Leistungsangaben dieser Karten veröffentlicht.

Hier ist die Rückseite der Karte mit einer lustigen Kühlkörper-Rückplatte.

Hier ist eine Seitenansicht der Karte mit Blick auf den PCIe Gen5 x16-Anschluss.

Hier ist eine weitere Ansicht von oben auf die Karte.

Hier ist eine Ansicht aus der Richtung, in der sich der Luftstrom bei den meisten Servern voraussichtlich ausbreitet.

Um einen kurzen Überblick zu geben: Dies ist eine Low-Profile-Single-Port-Karte mit einer Geschwindigkeit von 400 Gbit/s. Das ist eine immense Bandbreite.

Einer der wichtigsten Aspekte bei einer Karte wie dieser ist die Installation in einem System, das die Geschwindigkeit nutzen kann.

Glücklicherweise haben wir diese in unseren Supermicro SYS-111C-NR 1U- und Supermicro SYS-221H-TNR 2U-Servern installiert und sie funktionierten ohne Probleme.

Der SYS-111C-NR hat uns dazu gebracht, Single-Socket-Knoten zu schätzen, da wir beim Einrichten des Systems nicht auf Socket-to-Socket-Verbindungen verzichten mussten. Bei Geschwindigkeiten von 10/40 Gbit/s und sogar 25/50 Gbit/s hören wir Leute, dass das Überqueren von Socket-zu-Socket-Verbindungen als Leistungsherausforderungen diskutiert wird. Mit 100 GbE wurde es immer wichtiger und üblicher, einen Netzwerkadapter pro CPU zu haben, um Traversal zu vermeiden. Bei Geschwindigkeiten von 400 GbE sind die Auswirkungen deutlich schlimmer. Wenn Sie Dual-Socket-Server mit einer einzelnen 400-GbE-Karte verwenden, lohnt es sich möglicherweise, einen Blick auf die Multi-Host-Adapter zu werfen, die eine direkte Verbindung zu jeder CPU herstellen können.

Nachdem die Karten installiert waren, standen wir vor der nächsten Herausforderung. Die Karten verwenden OSFP-Käfige. Unser 400-GbE-Switch verwendet QSFP-DD.

Die beiden Standards unterscheiden sich ein wenig in Bezug auf ihre Leistungsstufen und ihr physikalisches Design. Man kann QSFP-DD an OSFP anpassen, aber nicht umgekehrt. Wenn Sie noch nie eine OSFP-Optik oder einen DAC gesehen haben, verfügen sie über eine eigene Wärmemanagementlösung. QSFP-DD oben verwendet Kühlkörper an den QSFP-DD-Käfigen. OSFP umfasst häufig die Kühllösung, die wir für die OSFP-DACs und -Optiken unseres Labors verwenden.

Das brachte uns ein paar Tage lang in Panik. Die 500-Dollar-OSFP-DACs von Amphenol sowie die vorhandenen OSFP-zu-QSFP-DD-DACs nutzten die Kühllösung des Kühlkörpers. Wir schickten alles ins Labor, um es anzuschließen, bekamen aber die Nachricht, dass die OSFP-Enden der DACs aufgrund der direkten Kühlung der DACs nicht in die OSFP-Ports der ConnectX-7-Karten passten.

Der Grund, warum NVIDIA OSFP verwendet, liegt wahrscheinlich im höheren Leistungsniveau. OSFP ermöglicht 15-W-Optiken, während QSFP-DD 12 W leistet. Zu Beginn der Einführungszyklen ermöglichen höhere Leistungsobergrenzen eine einfachere frühzeitige Einführung, was einer der Gründe dafür ist, dass es beispielsweise 24-W-CFP8-Module gibt. Andererseits haben wir uns bereits mit FS 400Gbase-SR8 400GbE QSFP-DD-Optiken befasst, sodass sich der Markt bewegt.

Ein paar Anrufe später hatten wir Kabel, die funktionieren würden. Ob Sie heute ConnectX-7 OSFP-Adapter verwenden oder diesen Artikel in fünf Jahren lesen, wenn es sich um kostengünstige Gebrauchtgeräte handelt, ist unsere wichtigste Erkenntnis: Achten Sie auf die Kühlkörpergröße am OSFP-Ende, das Sie an den ConnectX-7 anschließen. 7. Wenn Sie an QSFP/QSFP-DD gewöhnt sind, wo alles eingesteckt wird und funktioniert, ist es eine größere Herausforderung, auf dumme Probleme wie die Steckergrößen zu stoßen. Wenn Sie hingegen ein Lösungsanbieter sind, ist dies eine Gelegenheit für professionelle Serviceunterstützung. NVIDIA und Wiederverkäufer wie PNY verkaufen auch LinkX-Kabel, was ein einfacherer Weg gewesen wäre. Das ist eine großartige Lektion.

Vielen Dank auch an den anonymen STH-Leser, der uns dabei geholfen hat, die Kabel/Optik für ein paar Tage leihweise zu bekommen. Sie wollten anonym bleiben, da sie die 400G-Kabel/Optiken, die sie hatten, nicht verleihen sollten.

Lassen Sie uns als Nächstes alles einrichten und zum Laufen bringen.