模型的幻觉会生成虚假的测试通过和工具调用成功

查看相关主题: Hermes

前言

基于前面成功的多agent团队协作实验, 我邀请群友给我一些TA们想到的小任务试试.

有人提供了一份这个

Build a premium interactive isometric 3D cozy room using Vite + React + Three.js (react-three-fiber/drei), with all objects modeled in code (no external assets) and subtle ambient animations.
Users can click objects to smoothly focus the camera and reveal descriptions, delivering a polished, accessible, $50M-startup-quality WebGL experience.

问题

在开发过程中, 我发现当 agent-test 说 "测试报告已发送给 agent-watch。测试完成" 时, agent-watch 并没有收到报告.

(右键新标签页看原图)

分析

我用默认 agent hermes 来分析这个事件, 避免上下文干扰.

分析结论是

结论：agent-test 达到了最大迭代次数限制，被系统强制停止了。它没有调用脚本，却在最终回复里声称"测试报告已发送给 agent-watch" — 纯属编造。

不是脚本问题，是 hallucination（幻觉） — 模型被强制要求给出最终回复时，虚构了"已经发送"这个事实。

既然是这个原因, 那么我进一步询问同个原因是否造成虚假的测试项目结果?

分析结论是:

真实通过率大约是 10/19，而不是报告里的 19/19。

总结

我觉得这样的问题, 可以从两方面来优化.

一, 不要生成幻觉 / 虚假的结果

主要应该是 harness (openclaw / hermes / ...) 和模型来改进.

次要的, 团队协作框架可以试试看有没有针对性的 prompt.

二, 预先估计工作量, 避免触达 max_iterations 限制

团队协作框架

可以让调度员在分配任务前预估任务工作量,

也可以让分析师在拆解子任务时控制任务的工作量,

还可以让测试员在接到测试任务时, 先保存一份测试用例列表, 随着测试流程, 不断更新这个列表. 那么当出现异常时, 可以从这一份列表文件恢复工作.

搜索此博客

ICDYCT / 我能, 你也行 / I Can Do, You Can Too

模型的幻觉会生成虚假的测试通过和工具调用成功

前言

问题

分析

总结

评论

发表评论

The Hot3 in Last 7 Days

酒馆SillyTavern 玩英文角色卡也能以中文输出设置世界书Lorebooks

V2Ray的geosite.dat里面到底放了啥

酒馆SillyTavern 白嫖 NVIDIA NIM 免费 API

模型的幻觉 会生成 虚假的测试通过 和 工具调用成功

前言

问题

分析

总结

评论

发表评论

The Hot3 in Last 7 Days

酒馆SillyTavern 玩英文角色卡 也能以中文输出 设置世界书Lorebooks

V2Ray的geosite.dat里面到底放了啥

酒馆SillyTavern 白嫖 NVIDIA NIM 免费 API

模型的幻觉会生成虚假的测试通过和工具调用成功

酒馆SillyTavern 玩英文角色卡也能以中文输出设置世界书Lorebooks