模型的幻觉 会生成 虚假的测试通过 和 工具调用成功
前言 基于前面 成功的多agent团队协作实验 , 我邀请群友给我一些TA们想到的小任务试试. 有人提供了一份这个 Build a premium interactive isometric 3D cozy room using Vite + React + Three.js (react-three-fiber/drei), with all objects modeled in code (no external assets) and subtle ambient animations. Users can click objects to smoothly focus the camera and reveal descriptions, delivering a polished, accessible, $50M-startup-quality WebGL experience. 问题 在开发过程中, 我发现当 agent-test 说 "测试报告已发送给 agent-watch。测试完成" 时, agent-watch 并没有收到报告. (右键新标签页看原图) 分析 我用默认 agent hermes 来分析这个事件, 避免上下文干扰. 分析结论是 结论:agent-test 达到了最大迭代次数限制,被系统强制停止了。它没有调用脚本,却在最终回复里声称"测试报告已发送给 agent-watch" — 纯属编造。 不是脚本问题,是 hallucination(幻觉) — 模型被强制要求给出最终回复时,虚构了"已经发送"这个事实。 既然是这个原因, 那么我进一步询问 同个原因是否造成虚假的测试项目结果? 分析结论是: 真实通过率大约是 10/19,而不是报告里的 19/19。 总结 我觉得这样的问题, 可以从两方面来优化. 一, 不要生成幻觉 / 虚假的结果 主要应该是 harness (openclaw / hermes / ...) 和模型来改进. 次要的, 团队协作框架可以试试看 有没有 针对性的 prompt. 二, 预先估计工作量, 避免触达 max_iterations 限制 团队协作框架 可以让 调度员 在分配任务前 预估任务工作量, 也可以让 分析师 在拆解子任务时 控制 任务的...