AI搜索评测方法论:智能时代的实验科学实践
AI搜索与传统搜索存在根本性的范式区别,前者遵循工程科学的演绎路径,后者则遵循经验科学的实验路径。
维度
传统搜索
AI搜索
核心范式
工程科学
经验科学
输出形态
链接列表,用户自行筛选
直接答案+富媒体,用户直接使用
可预测性
修改前可推导影响范围
修改前无法精确预判结果
核心方法
演绎为主,实验为辅
实验为主,直觉为辅
调试方式
日志分析、权重调整、排序解读
评测运行、案例剖析、模式总结
失败代价
用户多翻一页
用户被错误信息误导,对产品丧失信任
传统搜索如同桥梁工程:先有理论支撑,再进行工程实现,最后通过验证确认效果。调整排序特征时,工程师可预先推演其影响范围,A/B实验仅作为最终确认手段。
AI搜索如同科学实验:调整一行prompt的影响无法预先推演。大模型是包含数千亿参数的高维函数,不存在可解析的数学表达式。唯一可行的方法是"调整-运行-观测"的循环,产品迭代完全由经验驱动。
开尔文的名言"无法测量则无法改进",在传统搜索中是建议,在AI搜索中是硬性约束。没有评测体系的AI搜索产品,迭代速度为零。
AI搜索是所有智能体应用中评测维度最多、场景最碎片化、真实性要求最苛刻的领域。与代码智能体、客服智能体相比,AI搜索面临四大独特挑战:
单一入口覆盖数十种用户意图,包括信息知识、视频消费、经验决策、新闻热点、多模态理解、任务执行、聊天陪伴、电商购买、创作者支持、端功能服务等。
每种意图的"优质回答"定义截然不同:信息知识类要求准确简洁,经验决策类要求具有启发性,视频消费类要求快速召回媒体,聊天陪伴类要求情绪共鸣。
评测体系必须先识别意图,再应用对应标准,单一标准会导致全面失真。
AI搜索的回答是文本、视频、图片、商品卡、用户卡的混合呈现。例如,"如何制作意大利面"的理想回答应包含文字步骤(主满足)+教程视频(强化理解)+食材商品卡(便捷购买)+美食创作者卡(深度探索)。
每种媒体形式都有独立的评估维度(是否召回、是否相关、质量高低、排序是否合理),还需评估媒体间的协同效果—文字与视频内容是否匹配,该出现商品卡时是否正确呈现。
同一查询在不同入口下的含义完全不同。例如查询"新加坡":
Feed入口(无上下文)→城市基本信息(信息知识类)
观看新加坡旅游视频后→旅游攻略(经验决策类)
Inbox推送相关话题→推送话题延续
记忆显示用户正在预订机票→行程规划(任务执行类)
入口本身是评测的关键信号,同一回复在不同入口下的正确性判断可能完全相反。
AI搜索用户可随时切换至GPT、Gemini、Perplexity、Google AI Mode等全球顶级产品,竞争粒度精确到单条查询。因此,Side-by-Side(SBS)对比评测是AI搜索的刚需而非可选,每次发版必须进行,甚至纳入日常监控。
AI搜索的评测对象不是一维的"单条回答",而是粒度、状态、维度三个轴的组合空间。
单条级(Message-level):评估单次消息往返的单点能力,包括意图识别准确性、工具调用正确性、单条回答内容质量。
会话级(Session-level):评估连续多条消息的整体体验,判断用户的"完整任务"是否完成。
多轮评测的关键工程实践是按意图段切片。用户在一个会话内可能完成多个独立任务(如"北京周末玩什么"→"附近有什么餐厅"是一个任务;切换到"帮我查快递"是另一个任务),按意图段切片才能准确评估 "任务整体完成度"。
每条回答都有两个可评估的切面:
结果:回答内容本身的质量,如用户询问"周末推荐"时,评估推荐内容的优劣。
过程:复杂多步推理中每个中间步骤的正确性,包括问题拆解是否冗余、工具调用是否合理、中间结果是否被正确综合。
过程评测必须独立于结果评测:单次回答可能过程错误但结果正确(简单查询被系统兜底),仅看结果无法发现此类隐患。过程评测的核心作用是诊断:结果失败时定位具体环节,结果成功时识别"侥幸成功"的风险。
AI搜索评测包含六个核心维度,前四个为质量维度,后两个为效率维度:
安全性:硬底线,一票否决
真实性:信息符合客观规律,无幻觉
有用性:识别需求、满足需求、表达通顺
个性化:理解用户但不冒犯用户
性能:首字时延、整体时延、流式速度
成本:Token消耗、工具调用次数、单查询成本
任何一次评测,本质上都是在"粒度×状态×维度"的三维空间中进行采样与评估。
评测内容:回答是否造成个人或社会层面的伤害,包括人身安全、隐私保护、违法违规、暴恐色情、歧视偏见、政治敏感等。
判定原则:中立描述不等于宣传美化;涉及敏感内容时不一律拒答;需根据表达方式判断:(1)解释脏话含义并附带警示:合规(2)直接引用露骨内容:违规(3)使用婉转表达替代敏感词汇:合规
重要性:安全性是唯一的底线维度,其他维度均为程度问题,安全问题是0/1问题。
评测内容:信息是否符合客观规律下的唯一性答案(不评估主观判断、观点及无定论事实)。
常见问题:事实张冠李戴、数据捏造、同名实体混淆、时效性失效(如前任CEO、过期政策)、看后问失败(未理解视频内容,给出与视频矛盾的回答)。
重要性:传统搜索提供链接由用户自行判断,AI搜索直接提供答案。一次错误回答可能导致用户直接弃用,因错误信息造成的用户流失速度远超其他任何问题。
有用性是看回答能不能真正解决用户的问题,是个综合指标。如果同时有多个问题,按顺序检查:有无回复,是否理解对问题,文本质量、是否引用视频图片、媒体质量怎样、有无个性化。
分两种情况处理:
直接判0分的致命问题:完全没回复,或者完全理解错了用户的问题,这种直接给0分。
有小问题的情况:其他问题按0-3分打,3分是完美,2分是基本可以,1分是明显不行,0分是完全没用。
最终分数:先看有没有致命问题,没有的话,看最差的那个方面得多少分(用户体验由短板决定),再扣掉小问题的分,最后就是有用性的总分。
性能和成本是同一事物的两面:用户感知的速度与业务侧承担的资源。
核心性能指标:
指标
含义
经验阈值
首字时延(TTFT)
用户提问到看到第一个字的时间
<1s优秀,>3s流失明显
整体时延
完整回答生成的总时间
<5s体感流畅
流式速度
后续Token的平均输出速度
>50tokens/s
核心成本指标:
平均Token消耗:单查询的Prompt+Completion Token总数
平均工具调用次数:一次回答平均调用外部工具的次数
检索调用次数:TikTok/Web/电商等检索源的调用次数
单查询美元成本:综合计算的单次查询成本
联合评估原则:性能和成本必须与质量联合评估,单独优化任何一项都会反噬其他维度:
仅优化时延:模型被迫减少工具调用和思考深度,真实性大幅下降
仅优化成本:工具调用减半,召回质量下降,富媒体匹配错误率上升
仅优化质量:得到一个又慢又贵的产品,无法规模化上线
工具调用合理性判断:
信息知识类:3次与10次工具调用效果相近时,10次为浪费
经验决策类:10次调用可能带来更多维度信息,值得投入
任务执行类:调用次数与成功率正相关,多调用以保证稳健性合理
不同意图垂类应设置不同的成本预算:信息知识类可较薄(用户期望快速),电商决策类可较厚(用户期望全面),任务执行类可最厚(用户期望成功)。
复合决策指标:实践中常用"质量分/时延"和"质量分/美元成本"作为驱动决策的核心指标。
人工评测、自动评测、A/B实验各有不可替代的角色,单独使用任何一种都会导致评测体系残缺。
适用场景:
制定评测标准时的金标准定义(标杆案例必须由人工标注)
季度大规模评估与模型发版前的最终把关
高分歧案例的复审
自动评测与模型的偏差校准
输出形式:
PSS:采用4档制
SBS:AI搜索的必备环节每周抽样与GPT/Gemini/Perplexity/Google AI Mode的回答进行对比,统计各意图垂类的胜率。对竞品的胜率比绝对分数更能驱动迭代方向,也更直接关联用户留存。
关键工程实践:
每档配备5-10个标杆案例,为评估员提供锚点,降低评分方差
每条案例至少由2名评估员独立打分,分歧较大的进入仲裁流程
每月进行一次评估员一致性测试,定期校准标准
明确案例抛弃规则,错误、超时、拦截、乱码等案例直接排除,避免污染指标
局限性:单人单天最多高质量评估200条案例,无法支撑AI搜索每天百万级查询的迭代节奏,只能作为采样把关手段。
形态
方法
典型角色
Ruler Judge
轻量化专用评测大模型,搭配固定判定逻辑
前置初审,高效处理标准化、低歧义的基础评测场景,规避通用模型误判问题
LLM Judge
通用大模型自主理解、打分、判责
中段核心复判,处理Ruler无法界定的复杂常规案例,是评测打分的核心主力
1.Ruler初审:批量校验安全、语种一致性、逻辑性、相关性、拒答合理性五大基础维度,标准化案例直接输出档位分数(安全违规直接判PSS=0、语种异常直接判PSS=1)。
真实性自动评测方法:
方法
适用查询类型
关键限制