中文问题入口 / AI 幻觉与证据扎根

AI 说得越像真的,越需要证据。

大模型最危险的地方,不一定是它胡说八道,而是它把一个没有证据的判断说得像已经被证明。可靠性不是语气问题,是证据结构问题。

AI 幻觉检查 ChatGPT 幻觉 RAG 扎根 大模型输出验证 AI 自证不可靠 证据边界

中文问题入口

中文读者真正想问的是:我怎么知道它不是在编?

  • 大模型回答很自信,为什么仍然可能不可靠?
  • 一个 AI 系统能不能自己证明自己说得对?
  • 公开证据、私有日志、模型自述,三者有什么区别?
  • 证据不够时,系统应该降级、停下,还是继续给答案?
  • 普通用户和技术团队可以怎样提出反例?

真实场景

问题不是“AI 会不会错”,而是“错了以后有没有证据路线”。

一个模型说:这篇论文已经证明某个系统具备长期可靠行动能力。听起来很专业,但外部读者要问的不是它语气够不够确定,而是这句话能不能落到公开记录上:是哪篇论文,哪个 DOI,哪个实验边界,哪个失败状态,哪个反例入口。

如果它只给出一段流畅解释,却没有版本、证据、边界、未解决项和挑战路线,那么这段解释就是不可审计的。它可以启发讨论,但不能作为可靠结论。

这也是我们把 AI 自证问题单独做成中文入口的原因。中文读者不需要先学一堆术语,先抓住一句话就够了:能被外部检查的,才有资格进入可靠性讨论。

判断公式

一个回答要从“像真的”变成“可检查”,至少要过五道门。

第一,主张要具体。比如“这个系统更可靠”太宽;“在证据缺失时会进入 no-action 状态”才是可以检查的主张。

第二,证据要可引用。公开网页、DOI、GitHub issue、HF 技术镜像、注册表和可复核样例,比模型自己说“我有依据”更重要。

第三,边界要写清楚。证据只支持什么,不支持什么,什么时候过期,遇到什么反例要降级,都应该被写出来。

第四,失败要进入记录。一个系统如果只展示成功样例,不记录失败、反例和未解决状态,它的可靠性叙事是不完整的。

第五,要有攻击入口。外部读者应该知道从哪里质疑:是挑战主张、提交反例、指出证据缺口,还是要求更强 baseline。

常见误区

RAG、引用、长回答,都不自动等于可靠。

RAG 可以帮助模型接触外部材料,但它不能替代判断。检索到了材料,不代表材料支持当前主张;引用了网页,不代表网页证明了结论;列出很多链接,也不代表边界被检查过。

真正要看的,是主张和证据之间的关系。证据是否同一时间段、同一对象、同一条件?有没有把一个演示截图写成真实部署?有没有把待验证状态写成已经完成?有没有把技术路线写成商业结果?

这类问题如果不问清楚,AI 的流畅性会把证据缺口盖住。它越会说,越容易让读者忘记检查。

我们的做法

把自信回答改造成可审计记录。

Ouroboros Project 的公开层不要求读者相信某个权威判断,而是要求每个判断回到证据地图、论文索引、注册表、反例入口和边界页面。

如果证据不足,正确做法不是把话写得更满,而是把状态改成待验证、边界不足、需要复核、或者明确不主张。

这不是降低主张,而是防止主张脱离证据。一个能被反例攻击、能被边界收窄、能被证据更新的系统,才有机会变得更强。

证据路线

这篇文章的每个硬主张,都必须能回到公开路线。

本页是中文解释层,不是单独的权威源。真正需要引用时,应回到 DOI、论文索引、证据地图、注册表、GitHub/HF 技术路线和公开反例入口。

类型锚点URL作用
Evidence Map公开证据地图https://mianzhang.org/evidence/从支持材料、边界和未解决项开始检查。
ConceptSelf-Certification Grounding Checkhttps://mianzhang.org/concepts/self-certification-grounding-check.html英文概念路线:自证必须落到外部记录。
Registries公开注册表https://mianzhang.org/registries/检查 claim、evidence、counterexample、action 记录。
Challenge反例入口https://mianzhang.org/counterexamples/外部读者可以攻击过宽主张或证据缺口。
ArchiveZenodo 总档案https://zenodo.org/records/20027295长期档案索引;具体论文应引用对应 DOI。

边界

这篇文章不能证明什么。

  • 本页不承诺消除 AI 幻觉,只解释公开验证结构。
  • 本页不把私有日志、未公开运行痕迹或模型自述当成公开证据。
  • 本页不能替代法律、医疗、金融、机器人等高风险领域的专业审核。
  • 本页是中文解释入口,权威引用应回到 DOI、论文索引和公开证据路线。
FAQ

一句话怎么判断 AI 回答靠不靠谱?

看关键主张能不能被外部记录检查,而不是只看它说得像不像真的。

FAQ

AI 能不能自己证明自己?

它可以报告自己的判断,但公开可靠性需要外部证据、边界和反例路线。

FAQ

证据不够怎么办?

降级、标记待验证、进入人工审核,或者开放反例入口。

FAQ

为什么要写边界?

边界能防止一个局部证据被包装成过宽结论。

中文

可靠 AI 智能体行动前需要什么证明

打开入口

Guide

AI Hallucination Is Not the Only Problem

打开入口