标签

AI不再强行圆谎?告别“幻觉”,只需短短两月

发布时间:2026-06-28 08:28阅读:3

请AI撰写市场调研报告,它列举诸多数据,看似专业严谨。然而逐一点击来源——无效,依旧无效。全是AI当场捏造的。

这并非AI“沾染恶习”,而是其固有的“先天短板”,业内称之为“幻觉”(Hallucination)。若问它秦始皇是否玩过智能手机,它能煞有介事地杜撰一段历史文献。

人类的表达:先有客观事实,再遣词造句。AI的表达:先掌握语法规则,再预测“下个概率最大的词汇”。它不分辨“真假”,只衡量“概率大小”。

因此,当AI面对知识盲区时,它绝不说“我不懂”——而是遵循语言习惯捏造一个看似合理的解答。宛如询问一位死要面子的哥们:“这事靠谱吗?”他明知没戏,仍拍胸脯保证:“妥了,我有路子。”

由此诞生了诸多经典翻车——

让AI推荐学术文章,它一口气列出十篇,名称作者卷期俱全,皆是现编的;

让AI编写程序,它写出格式极规范的代码,一运行就崩溃,库内压根无此方法;

向AI求证法条,脱口而出“依据《某某法》第38条第5款……”,核查后,纯属虚构。

本周一报告曾提及——6月20日,OpenAI正式推出“诚实AI对齐方案”。

该方案的核心即一点:训练AI习惯说“我不懂”。具体分三步走:

不确定性校准(把握不足时坦白交代、不硬撑)

事实核查机制(涉及具体真相时调用外部知识库比对验证)

主动拒答(超越边界的问题直说“无法核实”)。

此事为何值得重视?因它意味着AI领域的关键拐点——角逐焦点正从“谁更会编”变为“谁更清楚自身盲区”。

但更深层疑问是:既然AI“凭空捏造”属架构性顽疾,仅凭OpenAI一家出台方案能奏效吗?

结论是:不止OpenAI,全行业在过去两月中,实则从三大路径同步攻坚此难题。

进阶一:大模型自身可调“幻觉系数”。 如今主流大模型,已能在参数层级约束生成时的“发散度”。调低该系数,AI会更倾向选取高确定性表述,而非为求“通顺”去瞎编。AI的“胡扯烈度”正变为可控选项。

进阶二:模型演进本身便削弱幻觉。 从GLM-5.2至DeepSeek V4,最新迭代模型在真实性上大幅跃升。两月前的版本与当下的版本,在“明白自身盲区”这点上,早已不可同日而语。

进阶三:知识库从根源治愈“空口无凭”。 此为最核心进阶。RAG(检索增强生成)已大众化——AI不再单凭自身“记忆”回应,而是先搜寻知识库,再基于检索内容组织答案。具备可查证信源后,AI由“闭眼造”转为“查阅再答”。

半年前应对AI幻觉仅有一策:靠人工反复核对。如今能够多措并举:

从源头管控。 选用支持调整幻觉参数的大模型,核心场景下调发散度,令AI优先选高确定性表述。

搭建知识库。 将企业内部业务文档、操作规范、历史数据接入AI,AI便非“信口开河”,而是言必有据。

令AI先搜后答。 涉及数据、资讯、法规的疑问,开启联网搜索,基于即时信息作答。

追问一句“你确信吗?” 偶尔仅此一语,AI便自乱阵脚,乖乖更正。

AI恰似初入职场的新秀——实力强态度佳,但两个月前尚会偶尔吹嘘。如今他长进颇多、也配置了参考文库,显然可靠许多。莫因怕出错而弃用,亦不可彻底放任不管。

毕竟,明白自身局限,方为真正智慧。于人如此,于AI更甚。

关注「皇城21号」

每日聚焦AI+精准干货

助您AI+决策与效能提升!

周一 AI+行业周报|情报官看风向

周二 AI+政策合规|划红线排雷区

周三 AI+科技算力|算账本看底座

周四 AI+标杆复盘|抄作业避大坑

周五 AI+人才引擎|调组织看队伍

周六 AI+工具实测|选武器看试点

周日 AI+轻松时刻|调心态轻启发

📱 点击可关注

🏙️皇城21号发布|中文天下文化出品