AI辅助审稿新思路:让AI留下痕迹而非代劳
↑阅读之前记得关注+星标,每天第一时间接收更新
核心判断
这篇文章的核心判断
AI 审稿的核心价值不是速度快
AI 审稿的核心价值是让审批过程看得见
上个月我收到一份 30 页的培训采购合同。
翻开第一页,我就知道今晚不用睡了。金额条款含混不清币种没写、SLA 没有量化指标、保密条款的期限含糊其辞。
所有人可能都会做的事。打开 AI软件,把合同贴进去。三十秒后,它给了我一版修订稿。看起来很专业,用词严谨,逻辑通顺。当你把修订稿复制回 Word。
格式炸了。
表格错位,页眉跑到了页脚位置,原本的红色印章变成了灰色方块。我花了四十分钟调格式,比我自己逐条审一遍还久。
这不是 AI 的问题。这是「让 AI 替你写」这种用法的结构性缺陷。
你想想,一个真实的审稿人是怎么工作的。
律师看你的合同,不会直接给你一份「改好了的新版本」。他会在原文旁边加批注气泡,告诉你这条有什么风险、为什么要改。他会在原文上画删除线,在旁边写建议的新表述。你看完之后可以一键接受,也可以一键拒绝。
这个动作叫「留痕」。
留痕不是在原文旁边写字。留痕是把审议的过程可视化。
你老板说「今晚之前」,他要的不是一份 AI 润色过的漂亮文档。他要的是你读过了、你判断过了、你对每一处修改都能说出理由。
传统 AI 改稿做不到这件事。它只给你结果,不给你过程。
过去一年,朋友审了 23 份合同和方案,每份平均来回改了 3.2 趟。不是因为难改,是因为每次改完对方都问同一句话。
你这改了哪里 为什么
这就是问题所在。AI 改稿给了你一个「改了什么」的文档,但没给你「为什么改」的记录。
第一个坑 格式系统性崩溃
Word 的 OOXML 格式极其脆弱。你从 ChatGPT 复制文本粘回 Word,看起来只是粘贴,实际上你在做一件危险的事。
你的原文档里有样式继承、有编号列表的递归依赖、有页眉页脚的节段绑定。一旦你删掉原文、换上 AI 重写的内容,这些关系链全部断开。格式不是「可能」坏,是必坏。
第二个坑 敏感文档不能上云
合同里有什么 金额、违约条款、公司内部方案。你把这份文件丢给云端 API,从法律上讲你已经在泄密。
大部分公司 IT 政策里有一段被忽略的条款 禁止将含商业秘密的文件上传至未经批准的第三方云服务。按这个标准,你用 ChatGPT 审合同,已经违规了。
第三个坑 你看不到改了哪里
这是最隐蔽的坑。AI 给你一份新文档,看起来比原文写得好。但你不知道它删了什么、加了什么、改了什么。你不会逐字对比,太费时间了。结果就是,你只能「相信 AI」,不能「决策 AI 的建议」。
这三个坑有一个共同根源 你把 AI 当成了一个「替代你写作」的工具,而不是一个「辅助你判断」的工具。
我的设计思路,是不修改格式的情况添加备注与修订。它不是给你一个更好的 AI 改稿工具。它是在说,AI 审稿这件事,根本不应该走「改文档」这条路。
它的核心设计只有一句话。
让模型做判断,让代码做操作。
什么意思 传统 AI 改稿,模型既要判断哪里有问题、建议怎么改,还要负责写出改后的文档。四个任务混在一起,任何一个出错,整篇报废。
这个skill把四件事拆成了两条线。
模型只做一件事 输出结构化 JSON。不是输出新文档,不是输出修改建议的段落。是输出一个 JSON 决策列表,每条决策包含原文匹配文本、建议改法、修改原因、严重程度。
代码做另外三件事 解析 OOXML 段落结构、精确定位需要修改的文本、在 XML 层注入批注和修订标记。
用大白话说就是 AI 负责说「这条有问题,建议改成这个,原因是那个」,然后程序负责把这话变成 Word 里的批注气泡和红色修订标记。
第一步 读取文档结构。
不是把整个文档当纯文本读。是解析每一段的 ID、文本、样式信息。这一步是代码做的,结果是一个段落列表,每个段落有精确的位置信息。
第二步 模型逐段判断。
模型拿到段落列表后,按你选的审稿模式逐段过。合同模式审金额条款、SLA、保密、争议解决等六项。报告模式审数据准确性、表述歧义、逻辑跳跃等五项。
模型不看整篇文档。它看一段,判断一段。输出一条结构化 JSON,包含 match_text 原文定位、action 操作类型、suggestion 建议、reason 原因、severity 严重级别。
第三步 JSON Schema 强校验。
模型输出的 JSON 必须符合固定格式。格式不对 自动重试,最多三次。三次都失败 这条建议丢弃,不影响其他。
这条机制的价值在于杜绝了模型跑偏导致整篇报废的风险。你可以理解为,每条审稿建议都是独立原子,一条炸了不会波及另一条。
第四步 代码注入 OOXML。
这是最关键的一步。代码在原文的 word/comments.xml 里创建一个批注节点,在 word/document.xml 里找到匹配的文本位置,插入 w:ins 修订标记和 w:del 删除标记。
所有操作都在 XML 节点级别进行,不动已有节点的任何属性。原来的字体、段落样式、表格结构全部原封不动。
第五步 输出 .reviewed.docx。
你拿到的是原文档加全部批注和修订痕迹。在 Word 打开,你能看到熟悉的审阅模式。每条批注告诉你这里有什么问题、为什么要改。红色的删除线和插入文字告诉你怎么改。
你可以一键接受全部修订,也可以逐条拒绝。
我上周用这个方案审了一份我自己的内部方案。
方案里有一段关于项目周期的描述。我写的是「项目预计在 Q3 内完成」。模型在批注里说,这个表述缺少交付物定义和验收标准。「完成」是一个模糊词,建议改成「Q3 内完成并提交系统验收报告」。
这个建议太准了。
我自己写的时候觉得没问题,读完批注才意识到,同样的表述如果出现在跟甲方的合同里,这就是一个纠纷引爆点。
审稿这件事,最怕的不是审得慢,是审完了才发现漏了关键条款。
这个方案的价值就在于,它用审查清单保证你不会漏。合同审查六项,每项都是一道强制筛子。SLA 没有量化指标 标出来。保密条款义务范围不完整 标出来。争议解决条款没写管辖法院 标出来。
你不需要记着该审什么。清单帮你记。
合同审查模式
看金额条款 币种写了吗 含税口径写了吗 计算方式写了吗 看付款条件 账期合理吗 违约责任对等吗 看 SLA 可用性指标量化了吗 达不到怎么办 看保密条款 义务范围完整吗 期限合理吗 看争议解决 管哪个法院 走仲裁还是诉讼
报告改稿模式
出现的数据加了核对标记吗 一句话能读出两种意思吗 前面说东后面说西逻辑接得上吗 用词像微信聊天还是像正式文件 第五章只有一页半章只有十五页这比例对吗
方案评审模式
嘴上说要增长 30% 手里拿的工具能支撑这个目标吗 方案里隐含了什么假设 写出来了吗 最大的三个风险列出来了吗 你写的步骤换一个人能照着做吗 KPI 有没有数字指标而不是「有效提升」
第一 模型能力决定审查质量的上限。
这个方案的架构保证了输出稳定、格式安全、过程可追溯。但它保证不了审查建议本身的质量。建议好不好,取决于跑 prompt 的模型水平。
好处是,你换一个更强的模型,质量立刻提升,不用改任何代码。架构和模型是解耦的。
第二 只处理 .docx 格式。
不支持 .doc、.pdf、.txt。如果你的合同是旧版 Word 格式或者扫描件,需要先转换。
第三 不联网 不翻资料库。
这个专家全程本地推理,零数据外传。好处是安全,代价是它不会告诉你「根据 2025 年修订的公司法第几条」。它只能基于 prompt 里定义的审查清单做判断。
把它当成一个帮你过筛子的初审核稿人。它会帮你把明显的坑全部标出来,把模糊的表述全部指出来。然后你做二审,复杂条款找律师做三审。三审制,不是一审定生死。
回到开头那个场景。
凌晨两点,50 页合同,老板说今晚之前。
你打开这份合同,不是把文字贴进 ChatGPT。你告诉 AI 审稿人,合同模式,审一遍。
五分钟后你拿到一份 .reviewed.docx。打开,42 条批注标出了金额、SLA、保密、争议解决的全部盲点。CRITICAL 的 6 条标红警告。你看了一遍,逐条决策接受或拒绝。留存批注记录作为你的审议痕迹。凌晨四点半,发出邮件。
老板第二天看合同,他能看到你的批注记录。他知道你不是扔给 AI 了事,你是读过了、判断过了。
这就是这个方案的真正价值。它让 AI 审稿这件事从黑箱变成了白箱。
对「一人公司」的超级个体来说,你不是大厂法务部,没有一个团队帮你审合同。你的每一份合同都是自己把关。你要的不是 AI 替你签字,你要的是 AI 告诉你这里有坑、那里模糊、这句建议改成什么。
然后你做决策。
对团队管理者来说,你下属用 AI 审了合同,你最怕的是什么 你不知道他看了没有、改了什么、为什么改。用这个方案,审批痕迹留在文档里,你扫一眼批注记录就知道。
对内容创作者来说,你的每一篇推文、方案、白皮书都是你的作品。你要的不是 AI 替你写,你要的是 AI 帮你避免愚蠢的错误。数据有没有标