NVIDIA Dynamo: Revolutionäre KI-Inferenz für Unternehmen optimiert

3 min read

MÜNCHEN (IT BOLTWISE) – Mit der Einführung von NVIDIA Dynamo hat NVIDIA einen bedeutenden Fortschritt in der Technologie der KI-Inferenz erzielt. Diese Open-Source-Software ist darauf ausgelegt, die Effizienz und Skalierbarkeit von KI-Modellen in großen Rechenzentren zu maximieren.
NVIDIA Dynamo hat die Landschaft der KI-Inferenztechnologie mit seiner Veröffentlichung erheblich verändert. Diese Software ist dazu konzipiert, die Leistungsfähigkeit und Skalierbarkeit von KI-Modellen in umfangreichen Rechenzentren zu verbessern. Durch die effektive Steuerung und Koordination von Inferenzanfragen über zahlreiche GPUs wird gewährleistet, dass KI-Systeme kostengünstig arbeiten und gleichzeitig die Generierung von Token-Einnahmen optimieren.
Mit der zunehmenden Bedeutung von KI-gestützten Entscheidungen wird erwartet, dass diese Systeme bei jeder Eingabeaufforderung Tausende von Tokens erzeugen. Die Steigerung der Inferenzleistung bei gleichzeitiger Reduzierung der Kosten trägt zur schnelleren Expansion bei und eröffnet neue Einkommensmöglichkeiten für Anbieter.
Als Nachfolger des NVIDIA Triton Inference Servers wurde NVIDIA Dynamo entwickelt, um die Token-Einnahmen für Unternehmen zu maximieren, die auf reasoning-basierte KI-Modelle setzen. Es verbessert die Inferenzkommunikation über Tausende von GPUs und nutzt das Konzept des disaggregierten Servings, um die Verarbeitungs- und Generierungsphasen von großen Sprachmodellen (LLMs) auf verschiedene GPUs zu verteilen. Dies erlaubt eine unabhängige Optimierung jeder Phase und stellt sicher, dass die GPU-Ressourcen optimal genutzt werden.
Dynamo verdoppelt die Leistung und den Umsatz von KI-Fabriken, die Llama-Modelle auf der NVIDIA Hopper-Plattform verwenden. Bei der Nutzung des DeepSeek-R1-Modells auf einem großen Cluster von GB200 NVL72-Racks steigern die intelligenten Inferenzoptimierungen von NVIDIA Dynamo die Anzahl der pro GPU generierten Tokens um mehr als das 30-fache.
Um diese Leistungssteigerungen zu erzielen, umfasst NVIDIA Dynamo Funktionen, die den Durchsatz erhöhen und die Kosten reduzieren. Es ermöglicht die dynamische Anpassung von GPUs, um schwankende Anfragemengen und -typen zu bewältigen, und erkennt spezifische GPUs in großen Clustern, die Berechnungen optimieren und Anfragen effizient leiten können. Außerdem werden Inferenzdaten auf kostengünstigere Speicherarten ausgelagert und bei Bedarf schnell abgerufen, um die Inferenzkosten zu senken.
NVIDIA Dynamo ist vollständig Open Source und kompatibel mit PyTorch, SGLang, NVIDIA TensorRT-LLM und vLLM, was Unternehmen, Startups und Forschern erlaubt, innovative Methoden zur Bereitstellung von KI-Modellen über disaggregierte Inferenz zu entwickeln und zu verbessern. Es wird die Verbreitung von KI-Inferenztechnologien beschleunigen und unterstützt unter anderem AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI und VAST.
Die Plattform ermöglicht auch disaggregiertes Serving, das die unterschiedlichen Rechenphasen von LLMs – von der Anfrageerstellung bis zur Antwortgenerierung – auf verschiedene GPUs verteilt. Dieser Ansatz ist besonders vorteilhaft für reasoning-Modelle wie die neue NVIDIA Llama Nemotron-Modellfamilie, die fortschrittliche Inferenzmethoden für ein besseres kontextuelles Verständnis und präzisere Antworten bietet. Durch disaggregiertes Serving können die einzelnen Phasen separat optimiert und resourciert werden, was zu einer gesteigerten Leistung und schnelleren Benutzerantworten führt.
Zusammen mit der KI-Beschleunigungs-Cloud plant Together AI, seine Together Inference Engine mit NVIDIA Dynamo zu integrieren, um eine reibungslose Skalierung von Inferenz-Workloads über GPU-Knoten hinweg zu ermöglichen. Diese Integration erlaubt es Together AI, Engpässe in verschiedenen Phasen der Modellpipeline dynamisch zu adressieren.
NVIDIA Dynamo beinhaltet vier wesentliche Innovationen zur Senkung der Kosten für Inferenz-Serving und zur Verbesserung der Benutzererfahrung: GPU Planner, Smart Router, Low-Latency Communication Library und Memory Manager. Diese Technologien ermöglichen eine flexible Anpassung der GPU-Ressourcen, eine intelligente Anfragenverteilung, eine optimierte Kommunikation zwischen GPUs und eine kosteneffiziente Speicherverwaltung.

+ There are no comments

Add yours