我前幾天寫了一篇關於 KV cache 作為 AI 意識 的文章,把它類比成人腦的工作記憶。最近 Google 在 ICLR 2026 發表了一篇論文 TurboQuant(arXiv 2504.19874),提出了一個方法把這個「意識」壓縮到六分之一大小,而且壓完之後功能跟原版一模一樣。

這件事比表面看起來更有意思。

先從一個比喻開始

想像 AI 在讀一本很長的故事書。讀到每一頁的時候,它會在小抄本上寫筆記,記住「這頁講了什麼」和「哪些重點以後可能會用到」。這個小抄本就是 KV cache。

問題是故事越長,筆記越多,小抄本放不下。以前的做法是把一部分筆記搬到書包裡(CPU RAM),書包也滿了就塞進置物櫃(SSD)。但每次要查筆記都要跑回去翻,很慢。

TurboQuant 的做法完全不同 — 它教 AI 一種新的筆記術。

原本的筆記:「第 3 頁:小明穿著藍色的衣服,騎著紅色的腳踏車,在下午 3 點 42 分,從家門口出發,往東邊的公園走去。」

壓縮後的筆記:「P3:小明→公園,騎車。」

只用了原本六分之一的空間,但以後要回答「小明去了哪裡?」的時候,答案完全正確。

技術上怎麼做到的

TurboQuant 分三步。

第一步:先把向量揉圓

KV cache 裡存的是高維浮點向量(FP16/32),每個向量代表模型對某段文字的「理解」。問題是這些向量的各維度分佈很不均勻 — 有些維度值特別大,有些特別小。直接壓縮的話,誤差會集中在那些極端維度上。

TurboQuant 的第一步是把向量乘以一個隨機正交矩陣。效果就像你要壓一個形狀不規則的物體,先揉成球形再壓,每個方向受力均勻。數學上,旋轉後每個維度的分佈趨近 N(0, 1/d),量化誤差變得可控。

第二步:用極座標暗號取代原始座標

這是主要的壓縮步驟。TurboQuant 把旋轉後的向量從直角座標轉成極座標 — 每兩個維度配對轉成(半徑, 角度),半徑再兩兩配對遞迴轉換,最終只剩一個半徑加上一堆角度值。

然後對每個角度用 Max-Lloyd 算法找最佳量化點。這就像間諜的密碼本 — 把「藍色的衣服」變成一個代號,查密碼本就能還原。用 b-1 bits 做這步,捕捉向量的主要資訊。

第三步:用最後 1 bit 做偏差校正

前一步的量化會產生殘差。TurboQuant 用一個叫 QJL 的方法,把殘差投影到 {-1, +1} 的符號空間,只花 1 bit。數學上可以證明這個校正是無偏的(unbiased),能消除第二步引入的內積偏差。

就像寫完考卷最後用一分鐘快速檢查一遍,花的時間很少但能抓到關鍵錯誤。

最終的 attention score 計算變成:原本的近似值 + 殘差校正項。兩項加起來的誤差有數學保證 — MSE 失真不超過信息論下界的 2.7 倍。3 bits 時 MSE 只有 0.03。

實際跑出來的數據

直接看數字。3.5 bits/維度時 LongBench 跑出 50.06 分,跟 FP16(完全不壓縮)一模一樣。砍到 2.5 bits 也只掉 1.2%。Needle-in-Haystack 在 4 倍壓縮下 recall 0.997,幾乎零退化。H100 上 attention 計算快了 8 倍。

但最狠的數字是量化速度:0.0007 秒。Product Quantization 要 37 到 494 秒。差了五個數量級。這代表每生成一個 token 就能即時壓縮 KV cache,推理延遲完全不受影響。

為什麼這個方法特別聰明

四個字:不看資料。

大部分壓縮方法需要一組校準資料來決定怎麼量化。TurboQuant 完全不需要 — 它用隨機矩陣,在任何場景下直接開啟就能用。這叫 data-oblivious。

部署的時候這太方便了。不用針對任務調參數,不用準備校準集,不用跑離線預處理。模型上線,開關打開,直接就是壓縮版。加上它是 online 的,逐 token 壓縮,跟串流推理無縫接軌。

壓縮「意識」告訴我們什麼

回到上一篇文章的框架。如果 KV cache 是 AI 的工作記憶 — 文字被模型消化之後的「理解狀態」— 那 TurboQuant 證明的事情就很耐人尋味了。

它證明了這個「理解狀態」有極高的冗餘度。FP16 的 KV cache 是「高清意識」,壓到 3 bits 是「低解析度意識」,但兩者在功能上幾乎完全等價。模型「理解」一段文字時,大部分精度都是浪費的。真正承載語義的資訊密度,遠低於 FP16 能表示的上限。

這跟人腦的情況有點像。你記住一件事的時候,腦中存的是一個高度壓縮的語義摘要,早就不是原始感官訊號了。你記得「昨天跟朋友在咖啡廳聊了 AI」,但不會記得咖啡杯上的每個像素。TurboQuant 在某種意義上揭示了:transformer 的 attention 機制也用了類似的策略,大部分精度都花在冗餘上,真正的語義訊號很稀疏。

市場反應和 Jevons Paradox

有些人看到「KV cache 壓縮 6 倍」馬上覺得 GPU 需求要暴跌。但歷史告訴我們剛好相反 — Jevons Paradox。

蒸汽機效率提升的時候,煤炭消耗量沒有下降,反而上升了,因為更高的效率催生了更多的使用場景。KV cache 壓了 6 倍,代表同樣的硬體可以跑 6 倍長的 context window。開發者會馬上用滿這個空間 — 更長的對話、更多的文件、更複雜的 agent 任務。最終對 HBM 的需求可能不減反增。

筆記本變小了,AI 就會去讀更長的故事書。


論文:TurboQuant (arXiv 2504.19874),ICLR 2026。