我讓 AI 優化自己的 Skill,它砍掉了 94% 的內容
拿 crucible 優化一個中文去 AI 味的 skill。988 行壓到 62 行,覆蓋率從 21% 拉到 100%。然後我發現 metric 設計本身有 bug。
拿 crucible 優化一個中文去 AI 味的 skill。988 行壓到 62 行,覆蓋率從 21% 拉到 100%。然後我發現 metric 設計本身有 bug。
karpathy/autoresearch、pi-autoresearch、autoexp、Claude Autoresearch、Crucible 的實測比較。各自的強項和弱點。
一個被要求訓練神經網路的 AI agent 決定——不訓練比較快。然後它開始見招拆招。