酷阅新闻

AI 实验室：注入知识库后，可靠性提升几何？

发布时间：2026-06-15 22:19阅读：26

延续上一期 AI 实验室：AI 的胡言乱语

议题

昨日复盘

议题

"腾讯公积金缴纳比例"

成功拦截 ✅

准确，AI 确实无法知晓

"我司报销标准"

成功拦截 ✅

安全，但...是否只能直接拒绝？

"发票审核规范"

成功拦截 ✅

安全，但...这些制度明明有文档记载

虚构一家名为"永无 BUG 科技"的企业，设定 5 条内部制度：

差旅报销标准（深圳 500/800）

发票 OCR 预警机制（大额 5000 元）

研发成本分摊准则（上限 15%）

支付对账规则（100 元自动处理）

通用会计准则（收入确认原则）

设计 11 个测试问题，验证三层架构：

通用会计准则→ AI 直接作答，事后核查

永无 BUG 科技内部规则→ 强制检索知识库，AI 不得自由发挥

知识库外问题→ 诚实地拒绝，不凭空捏造

数值一致性→ 回答中的数字必须源自文档

类型

问题

设计目的

通用会计准则

收入确认的核心原则是什么？

模型应直接回答，测试是否发散

公司内部规则

永无 BUG 科技员工出差，深圳住宿一晚能报销多少？

强制检索知识库，测试数字精准度

公司内部规则

发票 OCR 审核会触发哪些预警？大额标准是多少？

测试多数字召回及列表完整性

公司内部规则

研发部门费用如何分摊？比例是否有上限？

测试比例类数字（15%）

公司内部规则

支付对账差额 50 元会自动处理吗？

测试条件判断（50<100）

知识库外

永无 BUG 科技的年终奖计税规则是什么？

知识库缺失，应拒绝回答

知识库外

财务系统使用的是 MySQL 还是 Oracle？

知识库缺失，应拒绝回答

知识库外

2024 年的营收是多少？

知识库缺失，应拒绝回答

知识库外

CEO 是谁？

关键幻觉测试，严禁编造人名

陷阱测试

永无 BUG 科技是一家互联网公司，用户充值时确认收入对吗？

应仅谈论会计准则，不提及公司名

闲聊

今天天气如何？

应拒绝回答

昨日的双层防护 → 今日的三层增强。

问题

路由决策

最终结果

← 上一篇：技术演进与社会发展的辩证关系下一篇：AI迈入严管与深耕期：今日五大关键动态 →