Mit der neuen Generation seiner AI-Infrastruktur bringt NVIDIA mit der Blackwell Ultra Architektur frischen Wind in das Wettrennen der High-Performance-KI-Systeme. Die aktuelle Veröffentlichung der MLPerf Inference v5.1 Benchmarks zeigt, dass Blackwell Ultra die bisherigen Spitzenreiter deutlich übertrifft – sowohl bei der Inferenzgeschwindigkeit als auch bei der Effizienz.
- NVIDIA Blackwell Ultra dominiert MLPerf Inference Benchmark
- MLPerf Inference Benchmark: Revolution in der AI-Infrastruktur
- Blackwell Ultra vs. Blackwell: Was macht den Unterschied?
- Software trifft Hardware: Full-Stack-Optimierung als Erfolgsformel
- Blackwell Ultra: Eine neue Ära für Ökonomie und Cloud-Infrastruktur
- Häufig gestellte Fragen zur Blackwell Ultra Architektur
NVIDIA Blackwell Ultra dominiert MLPerf Inference Benchmark
- NVIDIA Blackwell Ultra erzielt Spitzenwerte im neuesten MLPerf Inference Benchmark.
- Die hohe Inference-Performance steigert die Effizienz von KI-Fabriken signifikant.
- Mehr Rechenleistung ermöglicht eine deutlich schnellere Token-Produktion für generative KI-Modelle.
- Die verbesserte Infrastruktur senkt den Total Cost of Ownership (TCO) und steigert die Rentabilität.
- Wenige Monate nach der Einführung setzt Blackwell Ultra bereits neue Maßstäbe in der KI-Leistung.
MLPerf Inference Benchmark: Revolution in der AI-Infrastruktur
In unter einem halben Jahr nach ihrer Vorstellung auf der GTC hat NVIDIAs GB300 NVL72 Serverplattform – basierend auf der neuen Blackwell Ultra Architektur – sämtliche neuen Inferenz-Maßstäbe im Rahmen des renommierten MLPerf Inference v5.1 Benchmarks übertroffen. Besonders bei DeepSeek-R1 zeigte das System eine um bis zu 45 % höhere Leistungsfähigkeit als die vorherige Blackwell-Generation (GB200 NVL72).
Doch was bedeutet das konkret? KI-Inferenz – also das Verwenden von trainierten Modellen zur Verarbeitung von Eingaben – ist das Herzstück vieler Echtzeit-KI-Anwendungen. Von Chatbots über Sprachgeneration bis hin zu personalisierten Empfehlungssystemen – je schneller und effizienter ein System reagiert, desto wertvoller wird es für Unternehmen, die auf AI Productivity setzen.
Die neuen Rekorde unterstreichen nicht nur das technische Know-how von NVIDIA, sondern setzen neue Maßstäbe dafür, wie kosteneffizient und leistungsstark zukünftige AI-Fabriken arbeiten können. Quellen und weitere technische Details zur Benchmark-Auswertung findest du im offiziellen NVIDIA-Blog.
Blackwell Ultra vs. Blackwell: Was macht den Unterschied?
NVIDIA baut mit der Blackwell Ultra Plattform auf dem bereits soliden Fundament von Blackwell auf – und geht nochmals ein gewaltiges Innovations-Level weiter. Mit 1,5-mal mehr NVFP4 AI Rechenleistung und einer Verdopplung der Attention-Layer-Beschleunigung hebt sich Ultra klar ab. Hinzu kommen beeindruckende 288 GB HBM3e Speicherpro GPU – ein Gamechanger insbesondere bei großen Sprachmodellen.
Zur Veranschaulichung: Stell dir ein Warenlager vor, dass doppelt so schnell Pakete verpacken kann. Nicht nur wird der Ausstoß gesteigert, sondern auch der Energie- und Ressourceneinsatz pro Produkt sinkt drastisch. Für Unternehmen bedeutet dies mehr Output bei geringeren Kosten – ein klarer Wettbewerbsvorteil.
Im Kontext des Benchmarks konnte Blackwell Ultra Rekorde bei sämtlichen neuen Rechenzentrums-Benchmarks setzen – darunter Llama 3.1 405B Interactive, Llama 3.1 8B und Whisper. Damit hält NVIDIA nun alle per-GPU-Rekorde im MLPerf-Ranking. Wer sich für weitere technologische Spitzen interessiert, sollte unbedingt einen Blick in unseren Beitrag zur Hardware-Innovation werfen.
Software trifft Hardware: Full-Stack-Optimierung als Erfolgsformel
Neben der Hardware war vor allem der Full-Stack-Co-Design-Ansatz NVIDIAs ausschlaggebend für den Erfolg. Die Integration des speziell entwickelten 4-Bit Floating Point Formats NVFP4 ermöglichte eine höhere Genauigkeit bei geringerer Rechenleistung – ein seltener Balanceakt in der AI-Welt.
Hier kommt das Zusammenspiel von Hardware und Software besonders zum Tragen: Tools wie der TensorRT Model Optimizer und die Open-Source-Bibliothek TensorRT-LLM optimieren DeepSeek-R1 sowie weitere Modelle wie Llama oder Whisper gezielt für die neue Plattform. So kann die Blackwell Ultra Architektur mehr Leistung liefern, ohne Genauigkeit einzubüßen.
Ein besonders cleveres Verfahren ist das sogenannte Disaggregated Serving, bei dem Kontext- und Generierungsprozesse getrennt verarbeitet werden, um eine maximale Inferenz-Leistung herauszuholen. Das Ergebnis: Nahezu 50 % mehr Leistungsfähigkeit pro GPU beim Llama 3.1 405B Benchmark – ein Innovationssprung, der sich sehen lässt.
Blackwell Ultra: Eine neue Ära für Ökonomie und Cloud-Infrastruktur
Die extreme Leistungsdichte und Optimierung von Blackwell Ultra wirkt sich nicht nur auf die Geschwindigkeit aus, sondern senkt auch die Total Cost of Ownership (TCO). Das bedeutet: Rechenzentren und Cloud-Provider können mit weniger Ressourcen mehr erreichen – sowohl finanziell als auch ökologisch.
- Azure
- Google Cloud
- Lambda
- Lenovo, Dell, Cisco …
Sie alle nutzen die neue Plattform bereits oder haben ihre Benchmarkergebnisse mit Blackwell Ultra eingereicht – ein klares Signal für die Marktreife und Skalierbarkeit.
Auch auf gesellschaftlicher Ebene könnte diese Entwicklung weitreichende Folgen haben. Denkbar sind neue Maßstäbe bei personalisierter Medizin, effizienteren Verkehrs- und Energieprojekten oder im Bildungssektor durch fortschrittlichere automatische Sprachsysteme. Mehr Infos zu gesellschaftlichen Tech-Auswirkungen findest du auf unserer Analyseplattform zum Thema KI.
Für technologische Einblicke empfiehlt sich außerdem die offizielle NVIDIA Publikation zur neuen Benchmark-Runde.
Häufig gestellte Fragen zur Blackwell Ultra Architektur
Quelle: https://blogs.nvidia.com/blog/mlperf-inference-blackwell-ultra/






