臺北市
24°
( 24° / 24° )
氣象
2026-03-18 | 美通社

基於 NVIDIA BlueField-4 STX,WEKA 以更低的每 Token 成本將 Token 輸出推至極限

NeuralMeshAugmented Memory Grid NVIDIA STX 整合,能在相同GPU 佔用空間下,將Token 產量提升6.5 倍,大減AI 驅動機構的推理成本

加州聖荷西和加州坎貝爾2026年3月18日 /美通社/ -- 在 2026 年圖形處理器 (GPU) 技術大會 (GTC 2026) 上,人工智能 (AI) 儲存與記憶體系統公司WEKA 今日宣佈,已將其NeuralMesh™ 軟件與NVIDIA STX 參考架構整合。WEKA 基於NeuralMesh 運行的突破性Augmented Memory Grid™ 記憶體擴展技術,將支援NVIDIA STX,為代理型 AI 工廠帶來高吞吐量的情境記憶儲存,使跨會話、工具和任務的長語境推理變得無縫流暢。基於NVIDIA STX 的NeuralMesh 解決方案,運用NVIDIA Vera Rubin NVL72、NVIDIA BlueField-4NVIDIA Spectrum-X 以太網絡,預計能將情境記憶體的每秒 Token 生成量提升 4 至 10 倍,同時為 AI 工作負載提供每秒不少於 320 GB 讀取和 150 GB 寫入的吞吐量,較傳統 AI 儲存平台的吞吐量高出逾一倍。


基於 NVIDIA BlueField-4 STX,WEKA 以更低的每 Token 成本將 Token 輸出推至極限

WEKA 與 NVIDIA 合作實現具成本效益的大規模人工智能 (AI) 推論。

利用共享鍵(KV) 緩存基礎設施解決推理成本問題
擴展代理型系統,尤其在軟件工程應用領域,揭示一個殘酷真相:現今AI 的經濟效益取決於記憶體基礎設施層。每個大規模推理集群都會撞上記憶體牆:GPU上有限的高頻寬記憶體(HBM) 很快便耗盡,導致KV 快取被逐出、情境丟失,系統被迫重複已經完成的工作。這種架構效率低下,令推理成本急升。解決之道在於建立共享的KV 快取基礎設施,讓情境在代理、用戶與會話之間保持活躍。這樣能消除重複計算、維持Token 吞吐量,並保持效能穩定可測。缺乏共享KV 快取基礎設施的話,每增加一批並發用戶及代理,都會成為負累——成本上漲、體驗變差,推理集群規模越大,營運就越難。NVIDIA 推出專為語境記憶而設的STX,提供一套藍圖,旨在破解核心推理瓶頸。

上下文記憶體儲存:代理型AI 工廠的基礎
透過基於NVIDIA STX 架構聯合設計的WEKA 解決方案,AI雲端、企業及AI 模型構建者,均可部署所需基建,讓GPU 以頂尖效能運行,維持海量Token 生成,同時提升大規模推理的能源效益及成本效益。

領先在前的AI 創新者及雲端供應商,例如Firmus,已開始應用NeuralMesh 上的Augmented Memory Grid,重塑其推理經濟模式。

Firmus 技術總監Daniel Kearney 表示:「現實世界的AI 並非在實驗室運行,而是要面對電力限制、散熱限制,以及源源不絕的工作負載需求。Firmus 正是為此而生。與NVIDIA AI 基礎設施雙劍合璧之下,WEKAAugmented Memory Grid 可於大規模運行時,實現每秒Token 數提升6.5 倍,首個Token 生成時間(TTFT) 加快4 倍,證明在相同GPU 配置下,效能可提升至更高層次。隨著NeuralMesh 和Augmented Memory Grid 整合到我們與NVIDIA 一致的AI Factory 和NVIDIA STX 參考架構中,就能提供最快的情境記憶體網絡,實現可預測且高效的大規模推理。」

NeuralMeshNVIDIA STX:專為代理型 AI 而設
NeuralMesh 是WEKA 建基於超過170 項專利的智能自適應儲存系統。這將貫穿全棧STX 參考架構,為企業提供所需的新一代儲存方案,旨在將高性能AI 數據服務標準化,從而加快實現代理型AI 的價值。WEKA 的Augmented Memory Grid 是專為擴展記憶體而設的技術層,能於GPU 記憶體以外,將KV 快取整合成池並持久保存。即使推理工作負載不斷增加,長情境會話依然穩定,並發量亦能維持高水平。Augmented Memory Grid 於GTC 2025 首次亮相,今日起正式向NeuralMesh 客戶全面供應。該技術已在Supermicro 平台上,搭配NVIDIA Grace 中央處理器(CPU) 及BlueField-3 數據處理單元(DPU) 完成驗證,能帶來多項提升AI 成本效益的優勢,包括:

  • 戶體驗,大幅躍升:NeuralMesh上的Augmented Memory Grid 能將首個Token 生成時間大幅縮短4 至20 倍,確保AI 代理及應用程式在真實負載下依然反應迅速。
  • 相同硬件,收益更高:毋須增建基礎設施,每個GPU 就能多處理6.5 倍的Token。
  • 規模擴張,效能恒久:隨著會話、代理及情境窗口增加,Augmented Memory Grid 依然能維持高KV 快取命中率,避免純DRAM 架構出現效能急跌的瓶頸。
  • GPU 原生效率:整合BlueField-4 能將儲存數據路徑從CPU 卸載,讓GPU 全速運算,並消除輸入/輸出(I/O) 瓶頸從此絕跡。

WEKA 聯合創始人兼行政總裁Liran Zvibel 表示:「隨著編碼大型語言模型(LLM) 不斷進步,軟件工程領域對代理型AI 應用的採納程度可謂前所未見,生產力因此提升了100 到1000 倍。當編碼助手反覆調用近乎相同的代碼庫及提示時,WEKA的Augmented Memory Grid 會重複使用已快取的語境,即使語境窗口長度已發展至難以置信,亦不用強制進行冗餘的預填充。此舉大幅縮短回應時間,亦讓同一基礎設施上支援的並發用戶數目顯著增加。WEKA 在一年多前便率先洞悉市場對情境記憶儲存的需求,並於GTC 2025 推出Augmented Memory Grid。如今,NVIDIASTX 的出現,為企業打開大門,讓其能在最先進的NVIDIA Vera Rubin 架構(包括NVIDIA BlueField-4 及NVIDIA Spectrum-X 以太網絡)上,運行儲存及記憶體擴展基礎設施。為NVIDIA STX 在NeuralMesh 上運行Augmented Memory Grid,將帶來無與倫比的效能及效率,直接實現顛覆市場的 AI 成本效益。」

供應情況

WEKA 的Augmented Memory Grid 現已隨NeuralMesh 一併正式推出市場。

今天對記憶體高牆視而不見的企業,日後將會面對更艱難、更昂貴的擴展挑戰。隨著代理型工作負載增加,情境窗口不斷擴大,純DRAM 架構將面對成本持續疊加的問題:每新增一個並發用戶或會話,重算開銷、GPU閒置時間及營運成本便隨之上升。現在就為持久KV 快取規劃架構的企業,將比那些等待觀望的對手取得結構性成本及效能優勢。

如欲進一步了解NeuralMesh,請瀏覽:weka.io/NeuralMesh
如欲進一步了解Augmented Memory Grid,請瀏覽:weka.io/augmented-memory-grid

企業可瀏覽weka.io/nvidia 獲取更多資訊,或親臨GTC 2026 大會WEKA 的#1034 展位參觀。

關於WEKA
WEKA 正憑藉其自適應智能網格儲存系統NeuralMesh™ by WEKA,徹底革新機構建立、運行和擴展AI 工作流程的模式。有別於傳統數據基礎設施會隨著工作負載擴展而變得緩慢不穩,NeuralMesh在擴容時反而會變得更快速、更穩健、更高效。它能動態適應AI 環境,為企業AI 及代理型AI 的創新,提供靈活穩固的基石。NeuralMesh 備受財富50 強中30% 企業的信賴,致力協助頂尖企業、AI雲端供應商及AI 建構者,充分發揮GPU 效能、加快AI 擴展步伐,並降低創新成本。在www.weka.io 了解更多,或在LinkedInX 與我們聯繫。

WEKA W 標誌為WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱,可能為其各自擁有者的商標


基於 NVIDIA BlueField-4 STX,WEKA 以更低的每 Token 成本將 Token 輸出推至極限

WEKA: The Foundation for Enterprise AI

Google新聞-PChome Online新聞

最新國際新聞

延伸閱讀