标签

AI生成文章还能去掉“AI感”吗:用Skill做一次验证

发布时间:2026-05-01 11:13来源:微信阅读:7

此前我投稿过数派年度征文大赛的文章,「你是专家」这句话究竟是在帮 AI 还是在害你?,很幸运拿到了「Team Silicon」赛道第一名。不过在最近,我发现它收到了一条评价:

谢谢作者的分享,但我个人觉得这篇文章的 AI 味道还是挺明显的。有些表述我看了两遍都没搞懂 AI 到底想表达什么 hhh

是的,当时那篇文章确实是由 Claude Opus 4.6 一次性生成的,我几乎没有做任何改动。它之所以能赢,可能和命题本身比较巧、实践部分比较扎实有关;但如果从文章的结构与语言呈现来看,仍有不少问题。

因此我决定启动自建的 mp-article-writorSkill:在完全相同的上下文条件下,让 AI 把这篇文章重写一遍,看看“AI + Skill”的组合能不能带来实质性的改进。

尽管原文出自 Claude Opus 4.6 这种很强的模型,但全文依然暴露出不少典型的 AI 味。

其中一个很常见的问题,是「不是 A,而是 B」这种句式反复出现。

身份设定与其说是在告诉模型「怎么写」,不如说是在告诉它「你是谁」:这并不只是简单的“编”,更像是一种更高阶、也更具迷惑性的幻觉。它之所以看起来“更像懂了”,并不是因为模型真的知道更多;而是因为在回答之前它会先“想一想”。

另外,悬念的渲染也偏过度。

比如用「出了一身冷汗」来形容实验结果,把情绪放大到超出必要的程度。

有些结论在预料之中,但有些确实让我出了一身冷汗。

还有一点值得注意:文中会特意点出实验结果的排序方式,显得过于用力。

我还把最让人不安的结果放在了最前面。

比喻链条也容易被拉得太长。

尤其是结尾提到「遥控器」的那段,会暴露出典型问题:

它做的更像是个遥控器——调的是频道,而不是信号强度。真正影响“信号强度”的,是模型底层的推理能力——这才是天线的作用,不是遥控器能够决定的。

同一个比喻被拆成了三个子比喻(频道、音量、天线),并且每一段都刚好对应一个实验结论,工整得近乎失真。现实写作中,比喻往往只需要点到为止;而 AI 的习惯则是把它当作模板,从头铺到尾。

小标题的过度对称与公式化同样明显。

这些标题大体都遵循:否定式定义 + 对称结构。读起来就像从同一套标题生成器里批量生产出来的。尤其是「你……,AI 就……」那种对称感,真实作者很少会这么写。

AI 并没有那么容易被「道德绑架」。这不是「模型好坏」的问题。白大褂≠医术:你认真对待这个请求,AI 就会认真对待它输出。

每个案例几乎都采用同一套三段式。

四个案例的结构完全一致:实验设计 → 结果 → 小结;并且每个小结都统一是「短句 + 破折号或冒号 + 解释」的格式,整体节奏也重复得很紧。

正常的长文通常会在不同章节改变收束方式,不会让每一次结尾都像教案里的「本节要点」那样直接。

过渡句也很程式化。

比如「一个自然的追问」就是 AI 常用的过渡语。

看完专家幻觉带来的结果之后,来一个自然的追问就是……

转折往往刻意得像 PPT 切页。

前两个案例讲的都是「别这么用」。现在我们换个角度:看身份设定到底擅长什么。

「如果说……则是」同样是 AI 高频的过渡模板。

如果说案例 1 验证了……那么案例 2 要验证的则是另一项更微妙的变量。

在让 AI 重新生成文章之前,我先简单说明 mp-article-skill 的设计思路。

这是我自己搭建的 Skill:每当我完成一次实践探索或问题调研,它会把我完整的探索/调研过程作为上下文交给 AI,再结合 Skill 规则,帮我把文章初稿写出来。

在 Skill 中,我要求 AI 在正式开写前优先做三件事:先理解意图、校准语感、确认大纲。这样才能尽量避免生成内容出现结构层面的硬伤。

AI 会从「切入角度」「深度偏好」「核心主旨」「素材补充」四个方面向我确认信息,以理解我的写作意图:

接下来,它会读取「范文风格分析」文档,用来模拟我的写作风格;再读取「行文风格指南」,避免在语句里出现 AI 常见的加粗、破折号等用法。

在「范文风格分析」里,我整理了自己相对满意的文章,以及我希望最终呈现出来的写作气质;「行文风格指南」则主要参考少数派的「风格指南」。

当 AI 完成大纲后,它会把大纲内容展示出来,并停下来征求我的意见。

完成以上步骤之后,AI 才会进入初稿写作阶段。

初稿出来后,我会设置三个 subagent,分别承担「独立审读」「事实核查」和「终审自检」。使用 subagent 的好处在于隔离上下文:它只接触文章本身,而不吃到主会话的背景,从而避免主 Agent 因为上下文“太熟”而产生那种盲目的自信。

「独立审读 subagent」会重点检查 AI 味过重、逻辑不连贯、结构生硬等语言表达问题;「事实核查 subagent」则专门核对事实内容,防止 AI 发生幻觉或杜撰信息。

等主 Agent 收到这两个 subagent 的反馈并对初稿进行修改后,「终审自检」subagent 会进一步启动:它针对修改后的稿子,对照 SKILL.md 中给出的「自检清单」核查,并输出一份自检报告。

去除 AI 味的思路以及「自检清单」的具体内容,借鉴自卡兹克的 khazix-writerSkill。感谢他的开源项目。

为了保证上下文一致,我引用了同一批文档,并且给出的 prompt 与第一次生成文章的 prompt 保持完全一致(其中 file: 表示引用了本地文档):

我计划参加少数派的征文活动,创作文章并投稿至 AI 助力赛道 (TeamSilicon25)。file:少数派 2025 年度征文:听说你对写作是真 Al?.md 我的文章主题是:角色扮演真的能够影响 Al 的输出质量吗?使用“你 "" 我 " 这样的代词对 AI 最终的输出结果有怎样的影响? 我首先分别让 Gemini、GPT 和豆包就这一主题做了深度调研。file:调研结果 其次分别让 Gemini、GPT 和 Claude 总结了调研结果,并形成了最终的验证方案。 file:最终验证方案.md 之后分别调用了 DeepSeek 和 GLM 的 API 完成了 5 轮验证,形成了 file:实验过程总结.md 请你为我生成最终的文章。

因为 Copilot Pro 套餐已不再支持调用 Claude Opus 4.6,所以我只能让 GLM 5.1 与 Claude Sonnet 4.6 分别重写,这点其实有些遗憾。

新生成的两篇文章使用相同素材、同一个核心比喻,因此整体上比原文确实有好转。但从表现上看,Claude Sonnet 4.6 在多数维度上比 GLM 5.1 更能拉开“AI 味”的距离。

两篇都在用类似手法,但 GLM 5.1 的表达更密、更规整一些。

Claude Sonnet 4.6 只出现了 2-3 次类似的情况:

不只是换了词汇,还换了逻辑顺序 不是因为它太笨,而是因为它没有内省的机会

而 GLM 5.1 仍然超过 5 次,和原文的气质更接近:

不是「角色扮演有没有用」,而是「它到底擅长做什么」 差别并不在于 prompt 写得好不好,而在于模型生成之前有没有“停下来想一想”。身份设定主要是在调风格,不是在调准确度。权威感不等于准确性;准确性比「好看」更重要得多。

在 Skill 里,我并没有硬性禁止 AI 使用「不是……而是……」这种句式,而是要求它别用冒号和破折号。这种处理在一定程度上产生了间接效果,因为 AI 最喜欢倚重的若干句式,往往都依赖这两个标点:

当禁掉冒号和破折号后,模型不得不换其它表达方式;而这些替代方案通常更口语,也更不那么“模板”。两版新稿中「不是 A 而是 B」的减少,有一部分就来自这个标点限制带来的连锁影响。

原文的情绪词明显偏重;两版新稿都有所收敛,但收敛的方式与幅度并不完全一样。

原文里像「出一身冷汗」「触目惊心」「令人警觉」「完美」这类词汇,强度明显超出了一个对照实验所必需的范围。

Claude Sonnet 4.6 则用限定词来压低情绪起伏:

这个结论让我觉得有点细思极恐 意外,也有点放心

GLM 5.1 几乎不怎么使用明显的情绪词。

我推测,这正是 Skill 里要求的那种写法在起作用:冷静平和,但其中保留力量感;避免夸张的口语或语气词。

同时,我还让 subagent 对整篇进行独立审读。尤其是 GLM 5.1 的审读反馈中,明确提出要把「背后发凉」改成更平实的说法,目的是降级情绪强度。

原文里对遥控器的比喻被拆成了频道、音量、天线三层,这是最典型的“过度延伸”案例。两版新稿都做了收敛,但力度不同。

Claude Sonnet 4.6 只做了一次延伸:

遥控器可以让你收到更清晰、更适合当前场景的内容,但信号本身的质量,是由模型的推理能力决定的

停在这里,没有再拆出更多子比喻。

GLM 5.1 同样收敛了,但它更像用「正确用法 vs 错觉」的方式收束,因此整体比原文的频道、音量、天线要干净许多:

下次打开 ChatGPT 之前,先想清楚你是在调频道,还是在指望加外挂。前者是工具的正确用法,后者则是错觉。

这些“AI 味”的改善,和下一节将要出现的加粗总结句式的变化,可能都来自独立审查环节的修正:例如在独立审读阶段,subagent 会要求明确指出需要改什么。

三版结尾都用到了「遥控器」这个比喻,但最后落脚点不同。

旧文的结尾更像一份使用指南:用 ✅ 和 ❌ 的符号,按场景告诉读者什么时候该用角色扮演,什么时候不该用。

✅ 该用身份设定的场景 …… ❌ 不该用身份设定的场景 ……

GLM 5.1 的结尾则是三条加粗判断句:

身份设定调的是风格,不是准确度。 情感激励确实能让 AI 更卖力,但卖力的方向你说了不算。 推理能力是比任何 prompt 技巧更根本的分界线。

Claude Sonnet 4.6 的结尾是三条第一人称的实践描述:

要改输出风格,我会直接描述在对谁说话。…… 要写带数字的材料,数字由我来提供,不让模型自由发挥。…… 要核查任何可能超出模型知识边界的事实,换推理模型,别押注在专家人设上。

相较之下,两篇新版确实更好一些:它们不再保持原文那种“参考手册式”的建议口吻,而是改成更自然的叙述;但同时仍然保留了排比的句式,并放在总结段落里,因此读起来也不会完全僵硬。

尽管我在独立审读阶段已经要求 AI 明确检查过于整齐、对仗太重的结构,仍旧很难完全杜绝。我只能说:在“给建议”这种写作语境里,排比句式大概就是 AI 很难跨过去的坎。

Claude Sonnet 4.6 的标题更像人话:

实验是怎么设计的 情感激励有用,但它「努力」的方式有点野

第一个标题是朴素的疑问句,第二个用“有点野”这种口语化表达,带有明显的个人语气。

GLM 5.1 的标题更像大纲:

穿上白大褂就会看病了? 那它到底擅长什么? 甚至不需要角色扮演

标题风格这部分在 Skill 中并没有做强约束。不过 Skill 里有一个要求:希望呈现的感觉像“一个有见识的朋友在认真跟你聊一件打动他的事”(借鉴自卡兹克的 khazix-writerSkill)。这在一定程度上也影响了这里的写法。

原文的过渡句较为程式化。相对而言,Claude Sonnet 4.6 的过渡更口语:

测完幻觉,我顺手测了另一件事 测完这两个,我开始想,问题可能从一开始就问偏了 四个案例测完,可以回到开头那个问题了

GLM 5.1 的过渡更像论文:

验证完 system 层的身份设定,我接着想看 user 层的措辞会怎样 身份设定能调频道,那如果不加身份,只改措辞呢? 回到开头的问题

在 Skill 中,我也要求禁用「首先…其次…最后」「综上所述」「值得注意的是」等套话。但就过渡句的 AI 气质改善程度而言,我很难说两版新版已经有显著变化:至少我读起来仍然会觉得有些微妙的距离感——它不像是活生生的人写的;至少我自己不会这么写。

总体来说,在 Skill 的介入下,两篇新稿都去掉了大约 4 到 5 成的 AI 味道,但仍然会留下残余。比如「不是 A 而是 B」句式的一些余留、某些小标题或过渡句的过度范式,以及在提供建议时依然会出现排比对仗的惯性等。

从理论上说,这些剩余的 AI 味也可以继续通过强化规则约束来再削弱。但规则越多、限制越强,最终成文会不会变得碎裂、乃至“驴唇不对马嘴”,也是需要考虑的代价。

在更强硬的规则约束下,公式化表达会不会换来另一种新的 AI 味呢?

我更倾向于:AI + Skill 的组合适合用来清除重度 AI 味;而文章的美感与灵魂,在当下乃至未来一段时间内,依然需要人类作者亲自介入并进行润色。

如果你对 mp-article-writorSkill 感兴趣,我已经把它开源在 GitHub 上:balabalabalading/mp-article-writor[2],欢迎交流讨论。

我独立开发的 Mac 端 App「流量日记[3]」已上线 Mac App Store。它面向自媒体创作者设计,可以长期保存并分析各平台导出的账号数据。如果你是 Mac 上的内容创作者,欢迎下载体验,并可在半年内免费使用。