Nový model DiffusionGemma dosahuje až čtyřnásobně rychlejšího zpracování na GPU NVIDIA

Společnost NVIDIA přináší hned od vydání podporu a akceleraci pro nový model DiffusionGemma od Google DeepMind na platformách GeForce RTX, NVIDIA RTX PRO, DGX Spark, DGX Station a GPU NVIDIA H100. Vývojářům tak umožňuje provozovat rychlou a responzivní AI lokálně – od desktopů až po datová centra.

Na rozdíl od tradičních jazykových modelů, které generují text po jednom tokenu, využívá DiffusionGemma metodu difuzního odšumování (diffusion-based denoising), díky níž dokáže generovat text paralelně. Ve srovnání s ekvivalentním autoregresivním modelem tak nabízí na GPU až 4× vyšší výkon.

Hlavní novinky:

Vyšší rychlost: DiffusionGemma generuje 256 tokenů paralelně a dosahuje výkonu až 1 000 tokenů za sekundu na jednom GPU NVIDIA H100 Tensor Core, 150 tokenů za sekundu na NVIDIA DGX Spark a nejvyššího lokálního výkonu na NVIDIA DGX Station.
Postaveno na Gemma 4: Model podporuje textové i obrazové vstupy a kontext o velikosti až 256 tisíc tokenů, což umožňuje vytvářet pokročilejší multimodální a agentní AI aplikace.
Otevřené a lokální nasazení: DiffusionGemma je licencována pod Apache 2.0 a je od vydání podporována v nástrojích Hugging Face Transformers, vLLM a Unsloth. Vývojáři ji mohou provozovat lokálně bez závislosti na cloudu a bez poplatků za jednotlivé tokeny. Podnikové nasazení je dostupné prostřednictvím NVIDIA NIM a API přístup pro prototypování je k dispozici na build.nvidia.com.

Další informace najdete v příspěvku na blogu RTX AI Garage a na technickém blogu NVIDIA.

Další tiskové zprávy