指挥Agent操作 在你自己的VPS上尝试复现 VLESS-Reality-cracker 在Hermes-agent官方免费白嫖的qwen-3.6-plus的帮助下

装一个能操作你的VPS的agent

用你自己最熟悉的方法. 我这里以 hermes 为例, 有官方提供免费白嫖的 qwen-3.6-plus
安装教程参考
登录Nous Portal提供商参考

搭一个能运行的Reality服务端

用你自己最熟悉的方法. 我这里以 极简一键脚本为例
curl -LO https://github.com/crazypeace/xray-vless-reality/raw/main/install.sh || wget -O ${_##*/} $_ && bash install.sh auto 8443
* 这是一整行bash命令

检查这个Reality服务端能正常工作


在 Docker 里面部署一个 宿主机上运行的Reality服务端的复制.  宿主机上运行的 Reality 服务端不要改动. 
Docker 里面这个Reality服务端不要监听宿主机的外网, 只能在宿主机 内部使用.

跟你的agent讲上面这些话即可.

根据Docker 里的Reality服务端的配置文件, 在宿主机运行一个Reality客户端
检查这个Docker 里的Reality服务端能正常工作

跟你的agent讲上面这些话即可.

把 https://github.com/Anonymous376c1d0cf28/VLESS-cracker 拉到本地, 分析一下代码

跟你的agent讲上面这些话即可.

根据现在  宿主机运行Reality客户端 - Docker里运行Reality服务端  的这个环境, 验证这个POC

跟你的agent讲上面这些话即可.

你的agent应该给你一份 A/B 对比报告.

用这个页面的探针 进一步 测试
https://github.com/Anonymous376c1d0cf28/VLESS-cracker/issues/29

跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容
• A轮完成: 29/29
• A超时: 1

• B轮完成: 27/29
• B超时: 2(未完成)

A/B 差异分析
22个差异中,20个只是1-2字节响应大小波动(4152↔️4154),属于同一二进制的正常噪音。真正有意义的差异:

#12
• 探针: #12
• A轮: TO(4130)
• B轮: TO(4130)
• 说明: 两轮都超时 — 稳定特征

#19
• 探针: #19
• A轮: FIN(4129)
• B轮: FIN(4130)
• 说明: 大小差1字节

#22
• 探针: #22
• A轮: FIN(4128)
• B轮: FIN(4130)
• 说明: 大小差2字节

#28
• 探针: #28
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

#29
• 探针: #29
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

========
如果你还有额外的VPS, 也可以从外部进行测试. 如下:

从你现在的VPS-A 给你的另一台VPS-B 添加密钥登录


SSH登录到 VPS-B
用户 root
我已经添加好了密钥登录 
做这样的测试:
把Reality客户端 和 POC测试程序复制到 VPS-B
测试 现在这个宿主机的 Reality 服务端

跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容
A/B 轮对比结果

Round 1(原始重放): 29/29 探针全部有结果 — 27 个 ALERT,2 个 TIMEOUT(#8, #12)
Round 2(随机 session ID): 29/29 探针全部有结果 — 25 个 ALERT,3 个 FIN(#18, #19, #22),1 个 TIMEOUT(#12)

#8 内外长度倒挂
• 探针: #8 内外长度倒挂
• Round 1: TIMEOUT (5182)
• Round 2: ALERT (5204)
• 差异: ✗

#18 CCS 在 ClientHello 前
• 探针: #18 CCS 在 ClientHello 前
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#19 未定义 Alert 级别
• 探针: #19 未定义 Alert 级别
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#22 超长 Alert 附加数据
• 探针: #22 超长 Alert 附加数据
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

差分结论:4 个探针 A≠B

========

后记

我的水平有限, 只能在自然语言层面进行逻辑推演, 底层操作必须依赖agent和模型.
我用的模型不是SOTA, 智能水平有限, 不排除模型给我虚构了测试报告的可能性.
欢迎大家提出改进建议.

评论

The Hot3 in Last 7 Days

酒馆SillyTavern 玩英文角色卡 也能以中文输出 设置世界书Lorebooks

搭 Docker版 Sub-Store订阅转换专家 带 http-meta 实现 集合订阅 测延迟 排序 筛选 生成新订阅 定时任务上传Gist

酒馆SillyTavern 用中文讲故事 修改角色卡 修改AI生成的历史记录