KV快取需求減少90%，對NAND快閃記憶體投資人有何警訊？

KV快取需求大幅減少對NAND快閃記憶體投資人構成潛在警訊

Summary

DeepSeek V4模型透過引入注意力壓縮技術，將大型語言模型推理時的核心記憶體需求——KV快取的使用量減少了90%。這一技術突破，意味著未來模型在處理超長上下文時，對NAND快閃記憶體的消耗將顯著降低，對過往依賴模型規模擴張帶動記憶體需求成長的投資邏輯構成挑戰。

KV快取技術的記憶體消耗機制

KV快取是大型語言模型在進行推理（生成文本）過程中，用於暫存中間計算結果以避免重複運算的關鍵組件。隨著模型規模的擴大和上下文視窗的延長，模型需要處理的資訊量呈指數級增長，這直接導致KV快取的規模隨之擴大，進而對底層儲存硬體，特別是NAND快閃記憶體產生巨大的消耗壓力。例如，DeepSeek V4先前可支援128K的上下文視窗，若要進一步擴展至100萬token（約80萬字），傳統上需要極為龐大的KV快取空間。

DeepSeek V4的注意力壓縮技術與效率提升

DeepSeek V4模型透過引入一系列創新的注意力壓縮技術，成功將支援100萬token超長上下文所需的KV快取使用量降低了90%。這項技術的實現，代表著模型設計者能夠在不顯著犧牲模型效能的前提下，大幅精簡記憶體資源的佔用。這種效率的提升，是中國開源模型在算力受限情況下，透過演算法創新逼近甚至超越參數量更大的西方模型的體現，如SemiAnalysis報告所觀察到的，DeepSeek V4-Pro以相對較小的參數規模，達到了與Claude Opus 4.7和GPT-5.5相抗衡的任務成果。

對NAND快閃記憶體產業的潛在衝擊

KV快取需求減少90%的技術突破，對NAND快閃記憶體產業的投資人而言，是一個重要的警訊。過去，大型語言模型對記憶體需求的持續增長，是驅動NAND快閃記憶體市場需求的重要因素之一。然而，DeepSeek V4的案例表明，透過技術創新，模型在記憶體消耗方面可以實現顯著的效率提升。這可能意味著，未來模型效能的提升將不再完全依賴於硬體記憶體容量的線性擴張，從而減緩或改變NAND快閃記憶體的需求增長預期，對相關投資產生影響。

記憶體需求邏輯的自我修復與不確定性

儘管DeepSeek V4的技術進展對NAND快閃記憶體構成警訊，但其長期影響仍存在不確定性。歷史經驗顯示，如DeepSeek R1曾引發輝達股價波動，但市場最終因效率提升可能刺激更大訂單需求而趨於穩定，甚至GPU出現前所未有的缺貨情況。目前尚不確定這次KV快取效率的提升是否能引發類似的需求自我修復機制。如果未來NAND快閃記憶體的實際需求並未如預期般下降，則投資人可稍微減輕擔憂；反之，則需要重新評估市場動態。

KV快取需求減少90%，對NAND快閃記憶體投資人有何警訊？ | 遠見雜誌

KV快取需求大幅減少對NAND快閃記憶體投資人構成潛在警訊

Summary

KV快取技術的記憶體消耗機制

DeepSeek V4的注意力壓縮技術與效率提升

對NAND快閃記憶體產業的潛在衝擊

記憶體需求邏輯的自我修復與不確定性