AI评审的真实瓶颈
过去数月,我高强度地运用AI处理各类工作。从最初的惊艳到如今的理性,经历了几次认知的转变。本文并非否定AI的能力,而是想如实记录实践中遇到的坑与观察,供同路人参考。
结论先行:AI在评审领域的上限,远低于大众预期。
很多人的第一直觉是——喂给AI的资料越丰富,它就越专业。于是我们疯狂往本地知识库塞入各类评审案例、行业标准、优秀范本,期待它像见多识广的老专家那样精准输出。
但现实恰恰相反。
当知识库规模膨胀到一定程度,我明显感觉到AI给出的评审意见变得“温吞”——并非不输出,而是锐度下降,标准模糊,判断趋于保守和中庸。
原因不难理解。不同场景、层级的评审标准差异巨大。顶尖水准与普通水准的评判维度全然不同。但对AI而言,这些案例在语义空间中的距离远比想象中近。检索系统召回内容时,它无法像人一样自动识别“此案例标准太低,不该作为参考”。
结果便是:低标准的内容拉低了高标准的判断。知识库变成了一锅粥,模型捞出的内容好坏参半,最终输出一个看似合理但缺乏深度的折中意见。
持续使用后,我逐渐意识到AI在评审任务上存在一些无法仅靠优化Prompt或增加数据解决的根本问题。
第一,标准切换能力极差。
资深人类评审面对不同级别对象时,能无缝切换评判体系。知道何时严格、何时宽容。AI做不到。虽然Prompt可写明标准,但效果不稳定。一旦上下文混入其他标准案例,输出就会被污染。它没有内在的“标尺”,标尺全靠外部给定——外部标尺有噪声,判断就会偏移。
第二,批判性高度依赖上下文,缺乏独立思考。
我观察到:若先让AI审过一批质量一般的材料(且意见温和),紧接着审一份本该严格对待的材料时,其批判性会显著降低。这说明AI的“严格程度”不是稳定属性,而是被上下文校准的浮动变量。它不是在做“判断”,而是在做“拟合”——拟合它看过的评审意见的平均水位。
这对人类难理解,但AI会。上下文窗口就是它的全部“记忆”和“性格”,变了就变了。
第三,缺乏真正的专业直觉。
浸润多年的专家看前几页就能判断:内容是否solid,作者是否真懂,核心贡献是否站得住脚。这种直觉来自经验内化。AI目前不具备。它能做逐条检查、模式匹配。能指出逻辑不连贯、表述不清,但很难说“整个方向有问题”。它擅长局部挑错,不擅长整体判断。
第四,“专业感”具有欺骗性。
AI输出意见格式工整、用词专业、逻辑自洽。非资深人士难辨真假。很多时候是“万能模板”式评论——放哪都说得通,但无针对性。这不是评审,是写八股。
说这么多问题,并非否定AI价值,而是需明确其有用边界。
AI擅长:格式规范性、逻辑链条初筛、文本清晰度优化、明确规则化检查。又快又好,省时。
但涉及核心判断——“行不行”、“贡献够不够”、“方向对不对”——其回答仅作弱参考,不可当结论。
我的策略调整为:让AI做初筛和体力活,省出精力自己做最终价值判断。把它当勤勉助手,而非信赖评委。
这件事让我重新思考:AI真正擅长什么,又在“伪装”擅长什么。
评审易高估AI,因其输出天然有专业感——条理清晰、术语准确、语气笃定。人类天然信任“看起来专业”,尤其在不确定时易被说服。
“输出形式的专业”和“判断内容的专业”是两回事。AI把前者做到极致,后者仍有鸿沟。
见不少人完全依赖AI评审决策,我感隐忧。并非意见必错,而是当无法独立判断其对错时,是用黑箱替代判断力。长期看,不是增强,是退化。
工具终归是工具,判断力仍是人的事。
AI能让你看得更快,不能替你看得更准。评审需要标准、品味、经验,人的不可替代性比想象中强。
至少目前如此。
以上为个人实践感受,欢迎同行探讨交流。