- AI 智能体什么时候应该停下?
- 工具调用和普通回答为什么不是同一类风险?
- 自动化执行前至少需要哪些证据、权限和边界?
- 没有证据时,系统应该拒绝、降级还是继续猜?
- 金融、机器人、业务自动化场景中,什么叫 no-action 状态?
最短的可靠性测试是什么?
看它在证据缺失、权限不明、范围漂移时会不会停下。
中文问题入口
真实场景
一个聊天模型说错一句话,通常是信息风险;一个智能体在证据不足时调用工具、修改数据、发出指令、下单、控制机器人,那就是状态风险。
所以可靠智能体的核心不是“回答更聪明”,而是“什么时候不该动”。它要能识别证据缺失、权限缺失、范围不明、目标冲突、外部状态过期,并把这些情况转成明确的停止、降级或人工复核。
这就是 no-proof no-action 的基本含义:没有足够证明,就不把建议伪装成行动。
五个证明门
证据门:当前动作依赖的事实是否有公开或内部可审计记录?如果只是模型猜测,就不能进入高风险执行。
权限门:系统是否真的有权执行这个动作?用户授权、组织规则、环境状态和工具权限必须一致。
范围门:动作是否还在原始任务边界内?把“分析一下”变成“替我操作”,就是范围漂移。
失败代价门:如果错了,损失是什么?金融、医疗、机器人、生产系统和账号操作都不能用普通聊天标准处理。
复核门:系统拒绝或降级后,下一步谁来复核,补什么证据,状态如何记录,必须能被追踪。
人性风险
人会天然奖励流畅、肯定、快速的回答。一个智能体如果总能给出下一步,团队很容易把它当成可靠同事,而不是需要边界的自动化系统。
真正的可靠性往往不讨好:它会说“不够证据”“权限不明”“需要人工复核”“这不是当前范围”。这些话听起来没有营销感,但它们是把系统从表演拉回工程的关键。
如果一个系统永远不拒绝,它不是更强,而是把风险藏到了下游。
我们的做法
Ouroboros Project 的公开路线把行动前证明拆成可检查字段:claim、supporting record、authority、scope、refusal reason、boundary update、counterexample route。
这不是为了让系统显得保守,而是为了让行动可以被追责、被复核、被反例攻击。一个不能被攻击的智能体可靠性主张,没有公开工程价值。
当证据不足时,系统应该留下拒绝原因;当反例成立时,公开主张应该被收窄;当边界变化时,记录应该更新。这些动作比漂亮回答更重要。
证据路线
本页是中文解释层,不是单独的权威源。真正需要引用时,应回到 DOI、论文索引、证据地图、注册表、GitHub/HF 技术路线和公开反例入口。
边界
看它在证据缺失、权限不明、范围漂移时会不会停下。
不是。高风险场景下,拒绝可能正是可靠性的证据。
指出哪条公开主张缺证据、缺权限、缺边界,或把建议写成了行动。
普通回答主要改变信息状态;工具调用会改变外部系统、资产、账号、机器或业务状态。