基於 NVIDIA BlueField-4 STX,WEKA 以更低的每 Token 成本將 Token 輸出推至極限
NeuralMesh及Augmented Memory Grid 與NVIDIA STX 整合,能在相同GPU 佔用空間下,將Token 產量提升6.5 倍,大減AI 驅動機構的推理成本
加州聖荷西和加州坎貝爾2026年3月18日 /美通社/ -- 在 2026 年圖形處理器 (GPU) 技術大會 (GTC 2026) 上,人工智能 (AI) 儲存與記憶體系統公司WEKA 今日宣佈,已將其NeuralMesh™ 軟件與NVIDIA STX 參考架構整合。WEKA 基於NeuralMesh 運行的突破性Augmented Memory Grid™ 記憶體擴展技術,將支援NVIDIA STX,為代理型 AI 工廠帶來高吞吐量的情境記憶儲存,使跨會話、工具和任務的長語境推理變得無縫流暢。基於NVIDIA STX 的NeuralMesh 解決方案,運用NVIDIA Vera Rubin NVL72、NVIDIA BlueField-4 及NVIDIA Spectrum-X 以太網絡,預計能將情境記憶體的每秒 Token 生成量提升 4 至 10 倍,同時為 AI 工作負載提供每秒不少於 320 GB 讀取和 150 GB 寫入的吞吐量,較傳統 AI 儲存平台的吞吐量高出逾一倍。

WEKA 與 NVIDIA 合作實現具成本效益的大規模人工智能 (AI) 推論。
利用共享鍵值(KV) 緩存基礎設施解決推理成本問題
擴展代理型系統,尤其在軟件工程應用領域,揭示一個殘酷真相:現今AI 的經濟效益取決於記憶體基礎設施層。每個大規模推理集群都會撞上記憶體牆:GPU上有限的高頻寬記憶體(HBM) 很快便耗盡,導致KV 快取被逐出、情境丟失,系統被迫重複已經完成的工作。這種架構效率低下,令推理成本急升。解決之道在於建立共享的KV 快取基礎設施,讓情境在代理、用戶與會話之間保持活躍。這樣能消除重複計算、維持Token 吞吐量,並保持效能穩定可測。缺乏共享KV 快取基礎設施的話,每增加一批並發用戶及代理,都會成為負累——成本上漲、體驗變差,推理集群規模越大,營運就越難。NVIDIA 推出專為語境記憶而設的STX,提供一套藍圖,旨在破解核心推理瓶頸。
上下文記憶體儲存:代理型AI 工廠的基礎
透過基於NVIDIA STX 架構聯合設計的WEKA 解決方案,AI雲端、企業及AI 模型構建者,均可部署所需基建,讓GPU 以頂尖效能運行,維持海量Token 生成,同時提升大規模推理的能源效益及成本效益。
領先在前的AI 創新者及雲端供應商,例如Firmus,已開始應用NeuralMesh 上的Augmented Memory Grid,重塑其推理經濟模式。
Firmus 技術總監Daniel Kearney 表示:「現實世界的AI 並非在實驗室運行,而是要面對電力限制、散熱限制,以及源源不絕的工作負載需求。Firmus 正是為此而生。與NVIDIA AI 基礎設施雙劍合璧之下,WEKAAugmented Memory Grid 可於大規模運行時,實現每秒Token 數提升6.5 倍,首個Token 生成時間(TTFT) 加快4 倍,證明在相同GPU 配置下,效能可提升至更高層次。隨著NeuralMesh 和Augmented Memory Grid 整合到我們與NVIDIA 一致的AI Factory 和NVIDIA STX 參考架構中,就能提供最快的情境記憶體網絡,實現可預測且高效的大規模推理。」
NeuralMesh與NVIDIA STX:專為代理型 AI 而設
NeuralMesh 是WEKA 建基於超過170 項專利的智能自適應儲存系統。這將貫穿全棧STX 參考架構,為企業提供所需的新一代儲存方案,旨在將高性能AI 數據服務標準化,從而加快實現代理型AI 的價值。WEKA 的Augmented Memory Grid 是專為擴展記憶體而設的技術層,能於GPU 記憶體以外,將KV 快取整合成池並持久保存。即使推理工作負載不斷增加,長情境會話依然穩定,並發量亦能維持高水平。Augmented Memory Grid 於GTC 2025 首次亮相,今日起正式向NeuralMesh 客戶全面供應。該技術已在Supermicro 平台上,搭配NVIDIA Grace 中央處理器(CPU) 及BlueField-3 數據處理單元(DPU) 完成驗證,能帶來多項提升AI 成本效益的優勢,包括:
- 用戶體驗,大幅躍升:NeuralMesh上的Augmented Memory Grid 能將首個Token 生成時間大幅縮短4 至20 倍,確保AI 代理及應用程式在真實負載下依然反應迅速。
- 相同硬件,收益更高:毋須增建基礎設施,每個GPU 就能多處理6.5 倍的Token。
- 規模擴張,效能恒久:隨著會話、代理及情境窗口增加,Augmented Memory Grid 依然能維持高KV 快取命中率,避免純DRAM 架構出現效能急跌的瓶頸。
- GPU 原生效率:整合BlueField-4 能將儲存數據路徑從CPU 卸載,讓GPU 全速運算,並消除輸入/輸出(I/O) 瓶頸從此絕跡。
WEKA 聯合創始人兼行政總裁Liran Zvibel 表示:「隨著編碼大型語言模型(LLM) 不斷進步,軟件工程領域對代理型AI 應用的採納程度可謂前所未見,生產力因此提升了100 到1000 倍。當編碼助手反覆調用近乎相同的代碼庫及提示時,WEKA的Augmented Memory Grid 會重複使用已快取的語境,即使語境窗口長度已發展至難以置信,亦不用強制進行冗餘的預填充。此舉大幅縮短回應時間,亦讓同一基礎設施上支援的並發用戶數目顯著增加。WEKA 在一年多前便率先洞悉市場對情境記憶儲存的需求,並於GTC 2025 推出Augmented Memory Grid。如今,NVIDIASTX 的出現,為企業打開大門,讓其能在最先進的NVIDIA Vera Rubin 架構(包括NVIDIA BlueField-4 及NVIDIA Spectrum-X 以太網絡)上,運行儲存及記憶體擴展基礎設施。為NVIDIA STX 在NeuralMesh 上運行Augmented Memory Grid,將帶來無與倫比的效能及效率,直接實現顛覆市場的 AI 成本效益。」
供應情況
WEKA 的Augmented Memory Grid 現已隨NeuralMesh 一併正式推出市場。
今天對記憶體高牆視而不見的企業,日後將會面對更艱難、更昂貴的擴展挑戰。隨著代理型工作負載增加,情境窗口不斷擴大,純DRAM 架構將面對成本持續疊加的問題:每新增一個並發用戶或會話,重算開銷、GPU閒置時間及營運成本便隨之上升。現在就為持久KV 快取規劃架構的企業,將比那些等待觀望的對手取得結構性成本及效能優勢。
如欲進一步了解NeuralMesh,請瀏覽:weka.io/NeuralMesh。
如欲進一步了解Augmented Memory Grid,請瀏覽:weka.io/augmented-memory-grid。
企業可瀏覽weka.io/nvidia 獲取更多資訊,或親臨GTC 2026 大會WEKA 的#1034 展位參觀。
關於WEKA
WEKA 正憑藉其自適應智能網格儲存系統NeuralMesh™ by WEKA,徹底革新機構建立、運行和擴展AI 工作流程的模式。有別於傳統數據基礎設施會隨著工作負載擴展而變得緩慢不穩,NeuralMesh在擴容時反而會變得更快速、更穩健、更高效。它能動態適應AI 環境,為企業AI 及代理型AI 的創新,提供靈活穩固的基石。NeuralMesh 備受財富50 強中30% 企業的信賴,致力協助頂尖企業、AI雲端供應商及AI 建構者,充分發揮GPU 效能、加快AI 擴展步伐,並降低創新成本。在www.weka.io 了解更多,或在LinkedIn 及X 與我們聯繫。
WEKA 及W 標誌為WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱,可能為其各自擁有者的商標。

WEKA: The Foundation for Enterprise AI
最新國際新聞
-
-
城市升級新思維 王惠美赴日考察梅田開發模式
(7 小時前) -
Tageos 推出全球首個採用 FlexIC 技術,由 Pragmatic Semiconductor 技術驅動的無線射頻識別 (RFID) 產品線
(7 小時前) -
從數據合作到產業共融:滬港開放數據競賽邁入新台階
(7 小時前) -
RIKEN 藉 Quantinuum 系統升級,擴大在日本的量子超級運算規模
(7 小時前)




