記憶體近來成了當紅炸子雞。圖為三星64Mb SDR SDRAM當年被應用於輝達首款GPU「GeForce 256」之上。業者提供
大家在用AI的時候,有沒有發現一個問題,AI總是很容易忘記你說過的話。
這正是黃仁勳在週一CES演講中點出的核心痛點,他說到:「儲存是一個至今完全未被服務的市場。」這句話,不僅讓SanDisk一晚暴漲 28%,更宣告了儲存產業從「配角」變成了「主角」。
AI得了「健忘症」
隨著模型從數十億參數暴增至數兆,特別是需要進行多輪推理、具備長期記憶的「AI代理」(Agentic AI)成為主流,AI開始得了一種昂貴的「健忘症」。
在LLM(大語言模型)的推理過程中,有一個東西叫KV Cache(鍵值快取)。你可以把它想像成AI的「短期記憶」或「工作筆記」。
當你跟AI對話時,它不是一次性讀完所有資訊,而是逐字生成。為了保持對話的連貫性,AI必須把之前的對話背景(Context)存儲在GPU的HBM(高頻寬記憶體)裡。
當記憶體滿了,AI就得丟掉一部分舊的對話紀錄,如果之後又需要用到,就得重新計算一次,導致延遲暴增、效率崩潰。
這就像一個人的大腦工作區太小,無法同時記住一本小說的所有情節,只能不斷翻頁,甚至忘記前面角色的名字。
輝達執行長黃仁勳在CES展示Rubin GPU及Vera CPU。美聯社
「倉庫」的升格
面對這個瓶頸,黃仁勳發布了名為「推論上下文記憶體儲存平台」(Inference Context Memory Storage Platform)的架構。
這套架構的核心思想是:既然大腦(GPU記憶體)不夠用,那就給它外掛一個超大容量、反應又足夠快的「筆記本」。
而這個「筆記本」,就是過去被我們視為「冷倉庫」的NAND Flash快閃記憶體(SSD)。
Nvidia在傳統的記憶體層級中,硬是切出了一個全新的「Tier G3.5」:
- G1 (HBM): 當下的思考(Hot Context)。
- G2/G3 (DRAM/本地 SSD): 緩衝與短期暫存。
- ★ G3.5 (ICMS/NAND Flash): 「AI代理的長期記憶」。它利用乙太網路連接Flash儲存,存放那些隨時可能被重新調用的上下文。
- G4 (冷儲存): 傳統的封存檔案。
這一步,徹底顛覆了儲存產業的價值定位。它在運算架構中的地位,從一個不太重要的「儲物櫃」,躍升為大腦皮層的一部分。
黃仁勳甚至預言,這將成為「全球最大的儲存市場,基本上儲存了全世界AI的工作記憶」。
SanDisk記憶體示意圖。取自pexels
為什麼SanDisk大漲?
你可能會問,為什麼美光(Micron)漲了10%,而SanDisk卻能暴漲27%?有兩個原因:
1. 從「水桶」到「大腦」的價值重估:
過去,投資人認為SanDisk就是個賣「水桶」的,一個利潤微薄的商品化生意。黃仁勳的發言,等於是宣告這個「水桶」現在是「大腦」的一部分,其價值和需求量迎來了指數級的成長。
2. 「純粹性」的溢價:
SanDisk在2025年從西數(Western Digital)拆分後,成為了市場上唯一的純NAND Flash標的。
Nvidia的「莊家」策略
這次發表不只是技術更新,更是一場「結盟大會」。Nvidia透過制定規則,制定了周邊玩家的遊戲規則:
-它告訴Dell、HPE、Pure Storage等合作夥伴:以後AI工廠的儲存要按我的「G3.5」標準來蓋。
-它讓儲存不再只是「存數據」,而是要參與「搬運記憶」。
當內存(Memory)與儲存(Storage)的邊界消失時,未來的贏家,不是只看誰的GPU最多,而是看誰能以最快速度、最低功耗,在數萬個GPU之間「調度記憶」。
本文由臉書粉專「
Fomo研究院」授權提供