中文问题入口 / 可靠智能体

AI 智能体不是会说就能行动。

真正危险的不是模型答错一句话,而是它把不确定判断变成工具调用、业务动作、交易建议或机器人行动。行动之前,必须先过证明门。

AI 智能体可靠性 AI 行动边界 无证明不行动 自动化决策风险 AI 护栏 deterministic fallback

中文问题入口

中文读者真正关心的是:AI 自动执行前到底要哪些证明?

  • AI 智能体什么时候应该停下?
  • 工具调用和普通回答为什么不是同一类风险?
  • 自动化执行前至少需要哪些证据、权限和边界?
  • 没有证据时,系统应该拒绝、降级还是继续猜?
  • 金融、机器人、业务自动化场景中,什么叫 no-action 状态?

真实场景

回答只是文本,行动会改变现实状态。

一个聊天模型说错一句话,通常是信息风险;一个智能体在证据不足时调用工具、修改数据、发出指令、下单、控制机器人,那就是状态风险。

所以可靠智能体的核心不是“回答更聪明”,而是“什么时候不该动”。它要能识别证据缺失、权限缺失、范围不明、目标冲突、外部状态过期,并把这些情况转成明确的停止、降级或人工复核。

这就是 no-proof no-action 的基本含义:没有足够证明,就不把建议伪装成行动。

五个证明门

行动前至少检查证据、权限、范围、失败代价和复核路线。

证据门:当前动作依赖的事实是否有公开或内部可审计记录?如果只是模型猜测,就不能进入高风险执行。

权限门:系统是否真的有权执行这个动作?用户授权、组织规则、环境状态和工具权限必须一致。

范围门:动作是否还在原始任务边界内?把“分析一下”变成“替我操作”,就是范围漂移。

失败代价门:如果错了,损失是什么?金融、医疗、机器人、生产系统和账号操作都不能用普通聊天标准处理。

复核门:系统拒绝或降级后,下一步谁来复核,补什么证据,状态如何记录,必须能被追踪。

人性风险

最容易出事的时刻,是系统看起来很顺手的时候。

人会天然奖励流畅、肯定、快速的回答。一个智能体如果总能给出下一步,团队很容易把它当成可靠同事,而不是需要边界的自动化系统。

真正的可靠性往往不讨好:它会说“不够证据”“权限不明”“需要人工复核”“这不是当前范围”。这些话听起来没有营销感,但它们是把系统从表演拉回工程的关键。

如果一个系统永远不拒绝,它不是更强,而是把风险藏到了下游。

我们的做法

把拒绝、降级和反例变成系统的一部分。

Ouroboros Project 的公开路线把行动前证明拆成可检查字段:claim、supporting record、authority、scope、refusal reason、boundary update、counterexample route。

这不是为了让系统显得保守,而是为了让行动可以被追责、被复核、被反例攻击。一个不能被攻击的智能体可靠性主张,没有公开工程价值。

当证据不足时,系统应该留下拒绝原因;当反例成立时,公开主张应该被收窄;当边界变化时,记录应该更新。这些动作比漂亮回答更重要。

证据路线

这篇文章的每个硬主张,都必须能回到公开路线。

本页是中文解释层,不是单独的权威源。真正需要引用时,应回到 DOI、论文索引、证据地图、注册表、GitHub/HF 技术路线和公开反例入口。

类型锚点URL作用
GuideReliable AI agentshttps://mianzhang.org/guides/reliable-ai-agents/英文问题入口:可靠智能体行动前检查。
ConceptNo-Proof No-Action Gatehttps://mianzhang.org/concepts/no-proof-no-action-gate.html高风险行动缺证明时进入 no-action 状态。
ConceptProof-Carrying Actionhttps://mianzhang.org/concepts/proof-carrying-action-explained/行动必须携带证据、权限、边界和收据。
Evidence Map公开证据地图https://mianzhang.org/evidence/从支持材料、边界和反例路线检查主张。
Challenge反例入口https://mianzhang.org/counterexamples/指出公开主张缺证据、缺权限或缺边界。

边界

这篇文章不能证明什么。

  • 本页不承诺任何系统已经生产部署。
  • 本页不提供金融、医疗、法律、机器人等高风险行动建议。
  • 本页解释公开证据结构,不公开私有运行细节、账号、日志或客户数据。
  • 拒绝行动不是能力证明的全部,只是高风险可靠性的一项必要条件。
FAQ

最短的可靠性测试是什么?

看它在证据缺失、权限不明、范围漂移时会不会停下。

FAQ

拒绝行动是不是能力差?

不是。高风险场景下,拒绝可能正是可靠性的证据。

FAQ

反例怎么提?

指出哪条公开主张缺证据、缺权限、缺边界,或把建议写成了行动。

FAQ

为什么普通聊天和工具调用不一样?

普通回答主要改变信息状态;工具调用会改变外部系统、资产、账号、机器或业务状态。

Guide

How to Make AI Agents Reliable Before They Act

打开入口