AI Coding 一年实战:从效率幻觉到能力进化
AI Coding 一年实战:从效率幻觉到能力进化 一、你以为快了 20%,实验说你慢了 19% 16 个资深开源开发者,预注册随机对照实验,使用 AI 辅助编码后客观测量完成时间慢了 19%。但这些开发者自己觉得快了 20%。主客观偏差达 39 个百分点。 这不是某个科技博主的体感分享,而是 METR(一家专注于 AI 模型能力评估的研究机构)做的目前唯一一项预注册 RCT(随机对照实验)。预注册意味着实验设计提前锁定、不能事后改假设。随机对照意味着有控制组和实验组、不是自选分组。 16 个人确实不多。但这些都是在自己长期维护的开源项目上工作的资深开发者,不是实习生在做玩具项目。一个人在自己最熟悉的代码库上,用 AI 写代码,客观上变慢了,主观上还觉得快了。这个认知偏差比「慢了 19%」本身更值得警惕。 如果只有 METR 一份数据,完全可以归为噪声。但 Faros AI 用 10,000 多名开发者的遥测数据讲了同一个故事。 Faros 按 AI 采纳程度分组,高采纳团队的个体指标全面飘红:任务完成数 +21%,PR 合并数 +98%。但组织级的 DORA(Google Cloud 旗下的 DevOps 效能研究团队)四大交付指标(部署频率、前置时间、MTTR(平均恢复时间)、变更失败率)无一改善。 个体全面提升,组织纹丝不动。这个悖论怎么解释? 答案藏在另外两个数字里:PR 体积 +154%,评审时间 +91%。 AI 帮你写了两倍的代码,打包成两倍大的 PR,然后扔给了同一个 reviewer。reviewer 的带宽没有翻倍,评审时间自然翻倍。上游加速产生的所有增量,被下游瓶颈原封不动地吃掉了。 再看信任层。三份大规模调查(DORA、Stack Overflow、JetBrains)交叉验证:90% 的开发者在用 AI,但只有 7% 总是使用,只有 3.1% 高度信任。不信任率 46%,首次超过了信任率 33%。 90% 都在用,3.1% 真信。这个漏斗的衰减速度比任何销售转化率都吓人。 1984 年,以色列物理学家 Eliyahu Goldratt 出版了商业小说《目标》。书中有个经典案例:一家工厂花重金引进了 NCX-10 数控机器人,该工位效率提升 36%,但整个工厂的交付周期和利润反而恶化了。原因很简单:NCX-10 不是瓶颈。瓶颈在热处理炉。让一个非瓶颈工位加速运转,唯一的效果是它前面堆积更多在制品,而瓶颈工位依然以同样的速度消化。系统的产出由瓶颈决定,不由最快的环节决定。 ...
