AI搜索答案从哪来？多数人把力气用错了地方

发布时间：2026-05-30 06:31阅读：18

AI可见性这两年确实大火。

你大概已经在用 Profound / Gauge / Searchable 这类工具,每天盯着自家品牌在 ChatGPT 里出现几次、被 Perplexity 引用几次。

也可能你内容团队正在按 AEO checklist 改稿:加 BLUF(结论前置)、加 schema、加 entity density、把标题写成问句……

但你有没有静下心来想过一件事——AI答案究竟是怎么生成的?

如果你说不太清楚,不怪你。这个领域本来就缺乏透明度。

Ann Smarty(20年SEO老兵,SEO + AI newsletter主笔)5月26日发了篇短文,把这条流水线拆得明明白白。结论一句话:

行业过度监测第5步,优化第4步,但忽视第1步——而第1步决定一切。

啥意思?往下看。

我向你保证看完这篇你能搞清楚:

好了,开始。

Ann 把它拆成5步。先看图(下面那张):

一个一个说。

LLM训练时已经把全网知识学了一遍。很多问题它不需要查任何URL就能直接答。

你问 ChatGPT "什么是 SEO",它直接答,不会去网上搜。

这一层你看不到任何URL。

如果偶尔有引用,是反向的——为了给已经写好的答案"找个背书"。

当 LLM 决定查网络时(问题太新、它训练时没见过),它会做一次检索。

怎么检索?主要走 Google,可能有些合作伙伴搜索。

意思就是:你的页得在 Google 里排得上,LLM 才能找到你。

LLM 找到一堆 URL 后,它要选读哪几个。

这一步机制不太明。Ann 的猜测是:

她还说了一句:这里 schema 可能很有用!!

但这点圈里有争议——我等会儿讲。

LLM 选定要读的页之后,真正去"读"内容,把片段抽出来作答。

这一步决定:你写的哪几句话能进答案。

这就是为什么 AEO 一直在讲 BLUF、Q-A heading、entity density——都是为了"让自己被抽出来"。

LLM 答完之后,最后挑几个 URL 列作引用。

这一步最坑。它可以引:

而且这一步是我们能直接观察的唯一一步——你看到的所有"AI引文报告"都是这一步的产物。

看出问题了吗?

Ann 那句话再说一遍:

行业过度测第5步,优化第4步,但忽略第1步——而第1步决定一切。

翻成大白话:

打个比方:你天天打扫家门口那一米的地砖,但你家屋顶在漏雨。

光说概念没意思。我用圈里现有的实证给每一步加点数据。

Kevin Indig(Growth Memo 主笔)分析了120万条 ChatGPT 引文,发现一个 P 值几乎为0的硬规律:被引文章的 entity density(实体密度)是普通文章的3-4倍。

意思就是:点名工具、点名研究、点名机构这种写法,在 AI 引文里压倒性胜出。

但你以为这只是写作技巧问题?

往深了看,这其实是训练层的问题——一个品牌被全网反复点名,LLM 训练时就把它编码成"这个领域的 known entity"。等用户问相关问题,LLM 直接从训练记忆里调出来,根本不需要走步骤 2-5。

圈里今年有个 framing 叫 "Recognition not Rankings"——被认识,而不是排名。说的就是这件事。

Mike King(iPullRank 创始人)今年5月提了个 framing:"Eligibility is the new ranking"——能不能被抓到,本身就是排名的前置。

啥意思?

LLM 走 RAG 流程(就是步骤2-3-4那套抓取+综合)时,有个隐藏杀手叫499状态码。

这个 status code 不在标准 HTTP 规范里,意思是"客户端没等服务器响应完就先断开了"——LLM 等你页面响应超过它的预算,直接走人。

Mike King 自家网站修了499之后,AI Search可见性涨了22%。

Profound(AI引文跟踪 SaaS)的70万页数据更狠:fetch failure rate 超过75%的页,被 AI 引用的概率比正常页低18倍。

意思就是:你内容写得再好,LLM 抓不到就是白搭。

Ann 在原文这里写道"schema 可能很有用!!"。

这点我要温和补一刀。

Ahrefs 今年5月发了一份因果级实证——用1885个加了 JSON-LD schema 的页 vs 4000个对照组,跑了7个月的 DiD 实验(一种隔离因果的统计方法)。结论是:

也就是说,给页加 schema,对 AI 引用基本没用,甚至 AIO 还掉了一点。

为什么"AI 引用页53%跑 schema"这个相关性数据是骗人的?因为做 schema 的站通常也做技术SEO + 优质内容 + 外链——schema 不是因,只是同方向的果。

所以步骤3这一层,圈里目前还没找到一个能直接撬动的明确杠杆。

LLM 真正"读"你的页时,它读多少?

Dan Petrovic(dejan.ai创始人)实测 Google grounding 流水线发现:LLM 每次答 query 平均只吃~1929词。

再长的页面剩下的内容,压根没进 LLM 的注意力窗口。

更扎心的是:单页超过20,000字符时,LLM 覆盖率只剩12%——意思就是你写的"终极指南5万字大综合",AI 只看见前12%。

Kevin Indig 那120万引文还给了个位置规律:文章前30% / 中 / 后三段的引文分布是44.2% / 31.1% / 24.7%。

所以重要结论一定要前置,别藏在文末。

Sistrix 今年初做了17周、6国、82,619个 prompt 的横向监控。三个平台的引文稳定性差到离谱:

意思就是:你今天监测面板上看到的 ChatGPT 引文,有四分之三下周就不在了。

如果你的 KPI 是"被 ChatGPT 引用次数",这个 KPI 本身每周自然波动74%——你优化做得再好,信号都被噪音淹掉。

测它,等于在测随机数。

回到反转——既然第1步(训练层)决定一切,怎么做?

Ann Smarty 自己有句话特别狠,出自她之前一篇文章:

"如果你是某个数据、发现或趋势的源头,你的名字就很难从 summary 里被抹掉。

你不是众多 voices 中的一个——你就是 THE voice。"

她管这套思路叫"Become the SOURCE"(成为源头)。

具体怎么做?三件事:

回到开头那句反转:

我们行业过度测第5步,优化第4步,但忽略第1步——而第1步决定一切。

上一篇我拆了黑帽视角——黑帽明白这点,所以他们在拼命污染训练层(用 RAG 灌水、合成实体网络、寄生信任域)。

这篇是白帽视角——你要做的不是跟黑帽抢污染速度,而是用 "Become the SOURCE" 的真本事,让 LLM 训练时不得不把你的名字编码进去。

最后说一句:别再天天盯着引文报告了。

那只是流水线最末端的一个噪音指标——你看到 / 没看到,跟你做得好 / 不好的关系,远比你以为的弱。

往前推一步,看你的品牌有没有被 AI 训练数据认知到。这才是真正的源头战场。

← 上一篇：AI与能源双向赋能新范式下一篇：国产 AI 芯片首迎“国考”：9 款过关，谁遗憾落选？ →