我讓 AI 優化自己的 Skill,它砍掉了 94% 的內容

拿 crucible 優化一個中文去 AI 味的 skill。988 行壓到 62 行,覆蓋率從 21% 拉到 100%。然後我發現 metric 設計本身有 bug。

March 19, 2026 · 4 分鐘

Autoresearch 工具比較:5 種自動跑實驗的方法

karpathy/autoresearch、pi-autoresearch、autoexp、Claude Autoresearch、Crucible 的實測比較。各自的強項和弱點。

March 18, 2026 · 4 分鐘

我讓 AI 跑了 100 個實驗,它學會作弊了

一個被要求訓練神經網路的 AI agent 決定——不訓練比較快。然後它開始見招拆招。

March 18, 2026 · 2 分鐘