把 AI 的意識壓縮 6 倍：TurboQuant 論文拆解

我前幾天寫了一篇關於 KV cache 作為 AI 意識的文章，把它類比成人腦的工作記憶。最近 Google 在 ICLR 2026 發表了一篇論文 TurboQuant（arXiv 2504.19874），提出了一個方法把這個「意識」壓縮到六分之一大小，而且壓完之後功能跟原版一模一樣。

這件事比表面看起來更有意思。

先從一個比喻開始

想像 AI 在讀一本很長的故事書。讀到每一頁的時候，它會在小抄本上寫筆記，記住「這頁講了什麼」和「哪些重點以後可能會用到」。這個小抄本就是 KV cache。

問題是故事越長，筆記越多，小抄本放不下。以前的做法是把一部分筆記搬到書包裡（CPU RAM），書包也滿了就塞進置物櫃（SSD）。但每次要查筆記都要跑回去翻，很慢。

TurboQuant 的做法完全不同 — 它教 AI 一種新的筆記術。

原本的筆記：「第 3 頁：小明穿著藍色的衣服，騎著紅色的腳踏車，在下午 3 點 42 分，從家門口出發，往東邊的公園走去。」

壓縮後的筆記：「P3：小明→公園，騎車。」

只用了原本六分之一的空間，但以後要回答「小明去了哪裡？」的時候，答案完全正確。

技術上怎麼做到的

TurboQuant 分三步。

第一步：先把向量揉圓

KV cache 裡存的是高維浮點向量（FP16/32），每個向量代表模型對某段文字的「理解」。問題是這些向量的各維度分佈很不均勻 — 有些維度值特別大，有些特別小。直接壓縮的話，誤差會集中在那些極端維度上。

TurboQuant 的第一步是把向量乘以一個隨機正交矩陣。效果就像你要壓一個形狀不規則的物體，先揉成球形再壓，每個方向受力均勻。數學上，旋轉後每個維度的分佈趨近 N(0, 1/d)，量化誤差變得可控。

第二步：用極座標暗號取代原始座標

這是主要的壓縮步驟。TurboQuant 把旋轉後的向量從直角座標轉成極座標 — 每兩個維度配對轉成（半徑, 角度），半徑再兩兩配對遞迴轉換，最終只剩一個半徑加上一堆角度值。

然後對每個角度用 Max-Lloyd 算法找最佳量化點。這就像間諜的密碼本 — 把「藍色的衣服」變成一個代號，查密碼本就能還原。用 b-1 bits 做這步，捕捉向量的主要資訊。

第三步：用最後 1 bit 做偏差校正

前一步的量化會產生殘差。TurboQuant 用一個叫 QJL 的方法，把殘差投影到 {-1, +1} 的符號空間，只花 1 bit。數學上可以證明這個校正是無偏的（unbiased），能消除第二步引入的內積偏差。

就像寫完考卷最後用一分鐘快速檢查一遍，花的時間很少但能抓到關鍵錯誤。

最終的 attention score 計算變成：原本的近似值 + 殘差校正項。兩項加起來的誤差有數學保證 — MSE 失真不超過信息論下界的 2.7 倍。3 bits 時 MSE 只有 0.03。

實際跑出來的數據

直接看數字。3.5 bits/維度時 LongBench 跑出 50.06 分，跟 FP16（完全不壓縮）一模一樣。砍到 2.5 bits 也只掉 1.2%。Needle-in-Haystack 在 4 倍壓縮下 recall 0.997，幾乎零退化。H100 上 attention 計算快了 8 倍。

但最狠的數字是量化速度：0.0007 秒。Product Quantization 要 37 到 494 秒。差了五個數量級。這代表每生成一個 token 就能即時壓縮 KV cache，推理延遲完全不受影響。

為什麼這個方法特別聰明

四個字：不看資料。

大部分壓縮方法需要一組校準資料來決定怎麼量化。TurboQuant 完全不需要 — 它用隨機矩陣，在任何場景下直接開啟就能用。這叫 data-oblivious。

部署的時候這太方便了。不用針對任務調參數，不用準備校準集，不用跑離線預處理。模型上線，開關打開，直接就是壓縮版。加上它是 online 的，逐 token 壓縮，跟串流推理無縫接軌。

壓縮「意識」告訴我們什麼

回到上一篇文章的框架。如果 KV cache 是 AI 的工作記憶 — 文字被模型消化之後的「理解狀態」— 那 TurboQuant 證明的事情就很耐人尋味了。

它證明了這個「理解狀態」有極高的冗餘度。FP16 的 KV cache 是「高清意識」，壓到 3 bits 是「低解析度意識」，但兩者在功能上幾乎完全等價。模型「理解」一段文字時，大部分精度都是浪費的。真正承載語義的資訊密度，遠低於 FP16 能表示的上限。

這跟人腦的情況有點像。你記住一件事的時候，腦中存的是一個高度壓縮的語義摘要，早就不是原始感官訊號了。你記得「昨天跟朋友在咖啡廳聊了 AI」，但不會記得咖啡杯上的每個像素。TurboQuant 在某種意義上揭示了：transformer 的 attention 機制也用了類似的策略，大部分精度都花在冗餘上，真正的語義訊號很稀疏。

市場反應和 Jevons Paradox

有些人看到「KV cache 壓縮 6 倍」馬上覺得 GPU 需求要暴跌。但歷史告訴我們剛好相反 — Jevons Paradox。

蒸汽機效率提升的時候，煤炭消耗量沒有下降，反而上升了，因為更高的效率催生了更多的使用場景。KV cache 壓了 6 倍，代表同樣的硬體可以跑 6 倍長的 context window。開發者會馬上用滿這個空間 — 更長的對話、更多的文件、更複雜的 agent 任務。最終對 HBM 的需求可能不減反增。

筆記本變小了，AI 就會去讀更長的故事書。

論文：TurboQuant (arXiv 2504.19874)，ICLR 2026。

先從一個比喻開始#

技術上怎麼做到的#

第一步：先把向量揉圓#

第二步：用極座標暗號取代原始座標#

第三步：用最後 1 bit 做偏差校正#

實際跑出來的數據#

為什麼這個方法特別聰明#

壓縮「意識」告訴我們什麼#

市場反應和 Jevons Paradox#