AI生成文章还能去掉“AI感”吗：用Skill做一次验证

发布时间：2026-05-01 11:13阅读：33

此前我投稿过数派年度征文大赛的文章，「你是专家」这句话究竟是在帮 AI 还是在害你？，很幸运拿到了「Team Silicon」赛道第一名。不过在最近，我发现它收到了一条评价：

谢谢作者的分享，但我个人觉得这篇文章的 AI 味道还是挺明显的。有些表述我看了两遍都没搞懂 AI 到底想表达什么 hhh

是的，当时那篇文章确实是由 Claude Opus 4.6 一次性生成的，我几乎没有做任何改动。它之所以能赢，可能和命题本身比较巧、实践部分比较扎实有关；但如果从文章的结构与语言呈现来看，仍有不少问题。

因此我决定启动自建的 mp-article-writorSkill：在完全相同的上下文条件下，让 AI 把这篇文章重写一遍，看看“AI + Skill”的组合能不能带来实质性的改进。

尽管原文出自 Claude Opus 4.6 这种很强的模型，但全文依然暴露出不少典型的 AI 味。

其中一个很常见的问题，是「不是 A，而是 B」这种句式反复出现。

身份设定与其说是在告诉模型「怎么写」，不如说是在告诉它「你是谁」：这并不只是简单的“编”，更像是一种更高阶、也更具迷惑性的幻觉。它之所以看起来“更像懂了”，并不是因为模型真的知道更多；而是因为在回答之前它会先“想一想”。

另外，悬念的渲染也偏过度。

比如用「出了一身冷汗」来形容实验结果，把情绪放大到超出必要的程度。

有些结论在预料之中，但有些确实让我出了一身冷汗。

还有一点值得注意：文中会特意点出实验结果的排序方式，显得过于用力。

我还把最让人不安的结果放在了最前面。

比喻链条也容易被拉得太长。

尤其是结尾提到「遥控器」的那段，会暴露出典型问题：

它做的更像是个遥控器——调的是频道，而不是信号强度。真正影响“信号强度”的，是模型底层的推理能力——这才是天线的作用，不是遥控器能够决定的。

同一个比喻被拆成了三个子比喻（频道、音量、天线），并且每一段都刚好对应一个实验结论，工整得近乎失真。现实写作中，比喻往往只需要点到为止；而 AI 的习惯则是把它当作模板，从头铺到尾。

小标题的过度对称与公式化同样明显。

这些标题大体都遵循：否定式定义 + 对称结构。读起来就像从同一套标题生成器里批量生产出来的。尤其是「你……，AI 就……」那种对称感，真实作者很少会这么写。

AI 并没有那么容易被「道德绑架」。这不是「模型好坏」的问题。白大褂≠医术：你认真对待这个请求，AI 就会认真对待它输出。

每个案例几乎都采用同一套三段式。

四个案例的结构完全一致：实验设计 → 结果 → 小结；并且每个小结都统一是「短句 + 破折号或冒号 + 解释」的格式，整体节奏也重复得很紧。

正常的长文通常会在不同章节改变收束方式，不会让每一次结尾都像教案里的「本节要点」那样直接。

过渡句也很程式化。

比如「一个自然的追问」就是 AI 常用的过渡语。

看完专家幻觉带来的结果之后，来一个自然的追问就是……

转折往往刻意得像 PPT 切页。

前两个案例讲的都是「别这么用」。现在我们换个角度：看身份设定到底擅长什么。

「如果说……则是」同样是 AI 高频的过渡模板。

如果说案例 1 验证了……那么案例 2 要验证的则是另一项更微妙的变量。

在让 AI 重新生成文章之前，我先简单说明 mp-article-skill 的设计思路。

这是我自己搭建的 Skill：每当我完成一次实践探索或问题调研，它会把我完整的探索/调研过程作为上下文交给 AI，再结合 Skill 规则，帮我把文章初稿写出来。

在 Skill 中，我要求 AI 在正式开写前优先做三件事：先理解意图、校准语感、确认大纲。这样才能尽量避免生成内容出现结构层面的硬伤。

AI 会从「切入角度」「深度偏好」「核心主旨」「素材补充」四个方面向我确认信息，以理解我的写作意图：

接下来，它会读取「范文风格分析」文档，用来模拟我的写作风格；再读取「行文风格指南」，避免在语句里出现 AI 常见的加粗、破折号等用法。

在「范文风格分析」里，我整理了自己相对满意的文章，以及我希望最终呈现出来的写作气质；「行文风格指南」则主要参考少数派的「风格指南」。

当 AI 完成大纲后，它会把大纲内容展示出来，并停下来征求我的意见。

完成以上步骤之后，AI 才会进入初稿写作阶段。

初稿出来后，我会设置三个 subagent，分别承担「独立审读」「事实核查」和「终审自检」。使用 subagent 的好处在于隔离上下文：它只接触文章本身，而不吃到主会话的背景，从而避免主 Agent 因为上下文“太熟”而产生那种盲目的自信。

「独立审读 subagent」会重点检查 AI 味过重、逻辑不连贯、结构生硬等语言表达问题；「事实核查 subagent」则专门核对事实内容，防止 AI 发生幻觉或杜撰信息。

等主 Agent 收到这两个 subagent 的反馈并对初稿进行修改后，「终审自检」subagent 会进一步启动：它针对修改后的稿子，对照 SKILL.md 中给出的「自检清单」核查，并输出一份自检报告。

去除 AI 味的思路以及「自检清单」的具体内容，借鉴自卡兹克的 khazix-writerSkill。感谢他的开源项目。

为了保证上下文一致，我引用了同一批文档，并且给出的 prompt 与第一次生成文章的 prompt 保持完全一致（其中 file: 表示引用了本地文档）：

我计划参加少数派的征文活动，创作文章并投稿至 AI 助力赛道（TeamSilicon25）。file：少数派 2025 年度征文：听说你对写作是真 Al？.md 我的文章主题是：角色扮演真的能够影响 Al 的输出质量吗？使用“你 "" 我 " 这样的代词对 AI 最终的输出结果有怎样的影响？我首先分别让 Gemini、GPT 和豆包就这一主题做了深度调研。file：调研结果其次分别让 Gemini、GPT 和 Claude 总结了调研结果，并形成了最终的验证方案。 file：最终验证方案.md 之后分别调用了 DeepSeek 和 GLM 的 API 完成了 5 轮验证，形成了 file：实验过程总结.md 请你为我生成最终的文章。

因为 Copilot Pro 套餐已不再支持调用 Claude Opus 4.6，所以我只能让 GLM 5.1 与 Claude Sonnet 4.6 分别重写，这点其实有些遗憾。

新生成的两篇文章使用相同素材、同一个核心比喻，因此整体上比原文确实有好转。但从表现上看，Claude Sonnet 4.6 在多数维度上比 GLM 5.1 更能拉开“AI 味”的距离。

两篇都在用类似手法，但 GLM 5.1 的表达更密、更规整一些。

Claude Sonnet 4.6 只出现了 2-3 次类似的情况：

不只是换了词汇，还换了逻辑顺序不是因为它太笨，而是因为它没有内省的机会

而 GLM 5.1 仍然超过 5 次，和原文的气质更接近：

不是「角色扮演有没有用」，而是「它到底擅长做什么」差别并不在于 prompt 写得好不好，而在于模型生成之前有没有“停下来想一想”。身份设定主要是在调风格，不是在调准确度。权威感不等于准确性；准确性比「好看」更重要得多。

在 Skill 里，我并没有硬性禁止 AI 使用「不是……而是……」这种句式，而是要求它别用冒号和破折号。这种处理在一定程度上产生了间接效果，因为 AI 最喜欢倚重的若干句式，往往都依赖这两个标点：

当禁掉冒号和破折号后，模型不得不换其它表达方式；而这些替代方案通常更口语，也更不那么“模板”。两版新稿中「不是 A 而是 B」的减少，有一部分就来自这个标点限制带来的连锁影响。

原文的情绪词明显偏重；两版新稿都有所收敛，但收敛的方式与幅度并不完全一样。

原文里像「出一身冷汗」「触目惊心」「令人警觉」「完美」这类词汇，强度明显超出了一个对照实验所必需的范围。

Claude Sonnet 4.6 则用限定词来压低情绪起伏：

这个结论让我觉得有点细思极恐意外，也有点放心

GLM 5.1 几乎不怎么使用明显的情绪词。

我推测，这正是 Skill 里要求的那种写法在起作用：冷静平和，但其中保留力量感；避免夸张的口语或语气词。

同时，我还让 subagent 对整篇进行独立审读。尤其是 GLM 5.1 的审读反馈中，明确提出要把「背后发凉」改成更平实的说法，目的是降级情绪强度。

原文里对遥控器的比喻被拆成了频道、音量、天线三层，这是最典型的“过度延伸”案例。两版新稿都做了收敛，但力度不同。

Claude Sonnet 4.6 只做了一次延伸：

遥控器可以让你收到更清晰、更适合当前场景的内容，但信号本身的质量，是由模型的推理能力决定的

停在这里，没有再拆出更多子比喻。

GLM 5.1 同样收敛了，但它更像用「正确用法 vs 错觉」的方式收束，因此整体比原文的频道、音量、天线要干净许多：

下次打开 ChatGPT 之前，先想清楚你是在调频道，还是在指望加外挂。前者是工具的正确用法，后者则是错觉。

这些“AI 味”的改善，和下一节将要出现的加粗总结句式的变化，可能都来自独立审查环节的修正：例如在独立审读阶段，subagent 会要求明确指出需要改什么。

三版结尾都用到了「遥控器」这个比喻，但最后落脚点不同。

旧文的结尾更像一份使用指南：用 ✅ 和 ❌ 的符号，按场景告诉读者什么时候该用角色扮演，什么时候不该用。

✅ 该用身份设定的场景 …… ❌ 不该用身份设定的场景 ……

GLM 5.1 的结尾则是三条加粗判断句：

身份设定调的是风格，不是准确度。情感激励确实能让 AI 更卖力，但卖力的方向你说了不算。推理能力是比任何 prompt 技巧更根本的分界线。

Claude Sonnet 4.6 的结尾是三条第一人称的实践描述：

要改输出风格，我会直接描述在对谁说话。…… 要写带数字的材料，数字由我来提供，不让模型自由发挥。…… 要核查任何可能超出模型知识边界的事实，换推理模型，别押注在专家人设上。

相较之下，两篇新版确实更好一些：它们不再保持原文那种“参考手册式”的建议口吻，而是改成更自然的叙述；但同时仍然保留了排比的句式，并放在总结段落里，因此读起来也不会完全僵硬。

尽管我在独立审读阶段已经要求 AI 明确检查过于整齐、对仗太重的结构，仍旧很难完全杜绝。我只能说：在“给建议”这种写作语境里，排比句式大概就是 AI 很难跨过去的坎。

Claude Sonnet 4.6 的标题更像人话：

实验是怎么设计的情感激励有用，但它「努力」的方式有点野

第一个标题是朴素的疑问句，第二个用“有点野”这种口语化表达，带有明显的个人语气。

GLM 5.1 的标题更像大纲：

穿上白大褂就会看病了？那它到底擅长什么？甚至不需要角色扮演

标题风格这部分在 Skill 中并没有做强约束。不过 Skill 里有一个要求：希望呈现的感觉像“一个有见识的朋友在认真跟你聊一件打动他的事”（借鉴自卡兹克的 khazix-writerSkill）。这在一定程度上也影响了这里的写法。

原文的过渡句较为程式化。相对而言，Claude Sonnet 4.6 的过渡更口语：

测完幻觉，我顺手测了另一件事测完这两个，我开始想，问题可能从一开始就问偏了四个案例测完，可以回到开头那个问题了

GLM 5.1 的过渡更像论文：

验证完 system 层的身份设定，我接着想看 user 层的措辞会怎样身份设定能调频道，那如果不加身份，只改措辞呢？回到开头的问题

在 Skill 中，我也要求禁用「首先…其次…最后」「综上所述」「值得注意的是」等套话。但就过渡句的 AI 气质改善程度而言，我很难说两版新版已经有显著变化：至少我读起来仍然会觉得有些微妙的距离感——它不像是活生生的人写的；至少我自己不会这么写。

总体来说，在 Skill 的介入下，两篇新稿都去掉了大约 4 到 5 成的 AI 味道，但仍然会留下残余。比如「不是 A 而是 B」句式的一些余留、某些小标题或过渡句的过度范式，以及在提供建议时依然会出现排比对仗的惯性等。

从理论上说，这些剩余的 AI 味也可以继续通过强化规则约束来再削弱。但规则越多、限制越强，最终成文会不会变得碎裂、乃至“驴唇不对马嘴”，也是需要考虑的代价。

在更强硬的规则约束下，公式化表达会不会换来另一种新的 AI 味呢？

我更倾向于：AI + Skill 的组合适合用来清除重度 AI 味；而文章的美感与灵魂，在当下乃至未来一段时间内，依然需要人类作者亲自介入并进行润色。

如果你对 mp-article-writorSkill 感兴趣，我已经把它开源在 GitHub 上：balabalabalading/mp-article-writor[2]，欢迎交流讨论。

我独立开发的 Mac 端 App「流量日记[3]」已上线 Mac App Store。它面向自媒体创作者设计，可以长期保存并分析各平台导出的账号数据。如果你是 Mac 上的内容创作者，欢迎下载体验，并可在半年内免费使用。

← 上一篇：宝马携高校发布企业AI成熟度“体检表”助力落地下一篇：人与AI：谁主沉浮的终极辩论 →