金鱼在桌前焦虑地翻书,纸团满地——大模型认知过载的隐喻

一文读懂 Harness Engineering:从 14 篇工程文章中,寻找那个让 AI 不再离经叛道的壳

作者:Yousa 博阳 | 编辑:徐青阳 | 游戏学习笔记 | 2026 年 4 月 5 日 2026 年第一季度,大模型应用层最具统治力的热词,绝对是「Harness」。 今年三月,LangChain 发布了一篇题为《The Anatomy of an Agent Harness》的实证文章,彻底点燃了所有人的焦虑与狂热。他们在这份报告里引用了一个实验数据对比。仅仅是给同一个大语言模型换上一套更精巧的 Harness 架构,它在 Terminal Bench 2.0(一个专门衡量 AI 编程能力的权威榜单)上的通过率,直接从 52.8% 拉升到了 66.5%。 ...

四月 5, 2026 · 33 分钟 · 22040 字 · Miss-you

Claude Code 还是 Codex?贵但强 vs 便宜但稳

纠结 Claude Code 还是 Codex?一个贵 4 倍但 SWE-bench 高 3%,一个便宜但社区说"更稳定"。这里有最短路径:同一仓库、同一任务的端到端实测——从 UI 克隆到推荐管线,看清每一分钱花在哪。 ...

十月 16, 2025 · 6 分钟 · 6080 字 · Miss-you

从副驾驶到架构师:我的AI编程协作方法论

从副驾驶到架构师:我的AI编程协作方法论 在过去几年里,我更换AI编程工具的频率,几乎赶上了前端框架的迭代速度。 一开始,我像许多人一样,让GPT帮我写一个孤立的函数,感觉很神奇。后来,GitHub Copilot成了我的标配,它总能猜到我接下来要写的几行代码,尤其是在写那些重复的样板文件时。再之后,Cursor出现了,它将对话和编码更紧密地集成在编辑器里,我开始尝试让它帮我完成更复杂的任务。 ...

八月 30, 2025 · 17 分钟 · 8953 字 · Miss-you