模型的幻觉 会生成 虚假的测试通过 和 工具调用成功

前言

基于前面成功的多agent团队协作实验, 我邀请群友给我一些TA们想到的小任务试试.
有人提供了一份这个
Build a premium interactive isometric 3D cozy room using Vite + React + Three.js (react-three-fiber/drei), with all objects modeled in code (no external assets) and subtle ambient animations.
Users can click objects to smoothly focus the camera and reveal descriptions, delivering a polished, accessible, $50M-startup-quality WebGL experience.

问题

在开发过程中, 我发现当 agent-test 说 "测试报告已发送给 agent-watch。测试完成" 时, agent-watch 并没有收到报告.
(右键新标签页看原图)

分析

我用默认 agent hermes 来分析这个事件, 避免上下文干扰.
分析结论是
结论:agent-test 达到了最大迭代次数限制,被系统强制停止了。它没有调用脚本,却在最终回复里声称"测试报告已发送给 agent-watch" — 纯属编造。

不是脚本问题,是 hallucination(幻觉) — 模型被强制要求给出最终回复时,虚构了"已经发送"这个事实。


既然是这个原因, 那么我进一步询问 同个原因是否造成虚假的测试项目结果?
分析结论是:
真实通过率大约是 10/19,而不是报告里的 19/19。


总结

我觉得这样的问题, 可以从两方面来优化.
一, 不要生成幻觉 / 虚假的结果
主要应该是 harness (openclaw / hermes / ...) 和模型来改进.
次要的, 团队协作框架可以试试看 有没有 针对性的 prompt.

二, 预先估计工作量, 避免触达 max_iterations 限制
团队协作框架
可以让 调度员 在分配任务前 预估任务工作量, 
也可以让 分析师 在拆解子任务时 控制 任务的工作量,
还可以让 测试员 在接到测试任务时, 先保存一份 测试用例列表, 随着测试流程, 不断更新这个列表. 那么当出现异常时, 可以从这一份列表文件恢复工作.

评论

The Hot3 in Last 7 Days

酒馆SillyTavern 玩英文角色卡 也能以中文输出 设置世界书Lorebooks

酒馆SillyTavern 用中文讲故事 修改角色卡 修改AI生成的历史记录

搭 Docker版 Sub-Store订阅转换专家 带 http-meta 实现 集合订阅 测延迟 排序 筛选 生成新订阅 定时任务上传Gist