三 AI 智能体构建审图链：透视工程图纸理解的现实瓶颈

发布时间：2026-05-25 22:54阅读：10

从规范核查到图纸解读，再到多智能体协同——一位建筑师关于 AI 实际应用的深度探索与反思。

停更视频已逾一周，并非怠工，而是专注于攻克一项"短期难成"的课题。

我耗费整整七天，致力于训练 AI 识读各类工程图纸（含建筑平、立、剖及节点详图），并尝试赋予其辅助审图的能力。

结论先行：在现有技术框架下，此目标尚未成熟。但这七天的探索历程，让我对 AI 演进路径、多智能体协作机制及视觉语言模型的现状有了更为透彻的认知。本文旨在系统梳理这些思考，分享给同样在探索 AI 落地应用的同仁。

首先探讨核心痛点。

天正 CAD、Revit 等软件生成的图纸数据，AI 能否提取？答案是肯定的。

我已成功提取天正图纸中的全部图元信息——门窗墙柱，每个对象及其属性均可被 AI 获取。然而，获取数据并不等同于理解数据。

对 AI 而言，"门"仅是带坐标的矩形加弧线，"墙"是两条平行线，"窗"不过是四根短线。这些仅是属性值，是一堆冰冷数据。AI 无从知晓这些数据背后的含义——它不知"门"代表出入口，"墙"用于分隔空间，"窗"负责采光通风。

此处需澄清一个关键认知：推理（Reasoning）与理解（Understanding）实为两个截然不同的概念。

AI 目前的强项在于基于文本的推理。这也是为何大语言模型在处理建筑规范时表现优异——规范由自然语言撰写，语言模型天生擅长处理语言中的逻辑关系、适用范围及条件判断。

然而，工程图纸属于视觉语言。平面图上的每个符号、每根线条、每种填充图案，都在传递空间信息。读懂图纸，依赖的是视觉理解能力——需从平面推演立面，由剖面关联详图，凭索引符号跳转至对应节点。这种跨图纸的空间关联与联想能力，恰恰是当前视觉模型的短板。

查阅数据发现：目前全球最强的视觉模型，对工程图纸图元的识别准确率，最优者亦不足 30%。连门窗等基础图元尚且如此，更遑论复杂的节点详图与构造做法。

直言不讳，当前市面上所谓的"AI 审图"软件，绝大多数走的并非人工智能路线。其本质仍是规则引擎——基于 DWG 矢量数据的确定性匹配，或是 Lisp/VBA 脚本的自动化。它们仅能在数字化信息基础上执行规则检查，而非像人类那样"看懂"图纸后再行判断。这并非 AI，而是传统计算机辅助设计（CAD）的延伸。

那么，真正的"AI 看懂图纸"应呈现何种形态？

它应如人类一般：拿到一套图纸，先阅平面图以知房间布局；再览立面图以晓外观形态；继而看剖面图以解竖向关系；遇索引符号，能自动跳转至对应节点详图以核对构造做法。在此过程中，每张图纸并非孤立存在，而是通过定位轴线、标高、索引符号等图元构建起一个立体、联动的信息网络。

这一要求有多高？

打个比方：视频生成模型现已能产出逼真视频，但这属于"推理"产物——模型依据海量训练数据推算出下一像素。它并非"理解"了物体三维结构、物理规律及光线传播后，才渲染出画面。

图纸理解亦是同理。要让 AI 真正"看懂"一张建筑平面图，它必须理解：

这绝非单纯的像素识别问题，而是需要领域知识 + 空间推理 + 规范理解的复合能力。

我判断，此突破至少还需 1-2 年。但鉴于当前视觉大模型的迭代速度——回想从 DALL-E 到 Sora 仅耗时多久——这一时间或许比我们预想的更短。

在等待视觉模型成熟之际，我并未停歇。我将精力转向另一方向：构建多智能体协作的审查流水线。

个人视角难免存在盲区。同理，由单一 AI 模型生成的内容，若由该模型自查，发现问题概率偏低。这非模型能力之过，而是认知角度单一所致——在同一思维框架下，难以跳出自身局限发现错误。正如自检文章，总有"盲区"。

人类的解决之道很简单：请同事协助校对。

AI 的解决方案亦应如此：引入另一模型进行审查。不同模型拥有不同的训练数据、推理倾向及"认知视角"——这种差异本身即构成一种纠错机制。

重要提示：若利用 AI 生成关键内容，务必采用不同模型进行交叉审查。同模型自查并非无效，但检出问题的概率远低于跨模型校对——正如自查文章虽能发现错别字，但结构性逻辑漏洞往往需他人才能察觉。跨模型校对的效果，更接近经验丰富的同事协助 Review。

我目前的多智能体体系架构如下：

关键设计：校对官采用与主编不同的模型。这是整个体系的核心——唯有在不同"认知视角"下，方能真正发现报告中的问题。

实测数据：Hermes（MiniMax M2.7）校对与 Claude 内置校对相比，综合评分 7.4 对 6.8。跨模型校对优势显著——两个独立模型同时产生相同幻觉的概率极低。

在搭建过程中，我发现了一个认知盲区：Claude Code 在调用外部智能体时，默认采用**"画皮模式"——我将其称为画皮模式**，因其宛若只有表皮而无内存的"皮囊"，本质上是-P 模式（单次 Prompt，无状态单轮对话）。

何意？即每次指令校对官审查报告，它审完返回结果后便遗忘一切。当下次发现校对结果存疑欲求确认时，必须重新发送所有上下文。这并非"两人持续对话"，而是"每次皆从头开始"。

在简单校对任务中此模式尚能凑合，一旦涉及多轮交互（校对→质疑→再校对→确认），效率便急剧下降。每次需将全部对话历史塞入一条 Prompt 发送，既消耗 Token，又易超出上下文窗口。

解决方案：引入独立智能体（Hermes）作为常驻校对官。它具备独立记忆，可维持连续对话，无需每次重新加载上下文。这将"单次委托"转变为"长期协作"。

另一实际难题是：Hermes 运行于 WSL（Windows Subsystem for Linux）的 Linux 环境，而三十千在 Windows 下。此前我始终认为两者无法直接交互调用。

但实际上，完全可以。

我询问 Claude："Windows 下的 Claude Code 能否调用 WSL 中的 Hermes？"

它迅速给出方案：通过 WSL 命令行桥接，wsl -e hermes -z。一个简单的命令桥便打通了两个智能体的协作通道。

此经验让我领悟一个重要原则：切勿先入为主地给 AI 设限。许多我以为"做不了"的事，询问后发现皆可行。统计显示，近期询问的 7 个"能否实现"的问题中，有 5 个均获得了可行方案。

此处分享个人对 AI 发展逻辑的思考，虽略长但值得探讨。

数年前，马斯克坚持纯视觉自动驾驶路线、拒绝激光雷达时，业界普遍认为其疯了。当时国内自动驾驶公司几乎全走"视觉 + 激光雷达 + 高精地图"的多传感器融合路线。

但回顾当下，马斯克的认知实则超前——他当时已想通一事：人类靠眼睛驾驶，无激光雷达亦能驾驶，机器理应亦然。这是"像人一样感知决策"的思路，本质上即人工智能的思路。

多传感器融合路线短期虽跑得更快，但最终将遭遇天花板：多传感器间的冗余与冲突将成为系统瓶颈，而非优势。激光雷达带来的"安全感"或许反而延缓了视觉能力的真正突破。

地球历经数十亿年生物演化，唯人类发展出最高级智能。人类的视觉、语言及推理系统，是经自然选择反复优化后留存的最佳方案。

这意味着什么？意味着当不知 AI 某项能力如何发展时，最佳参照系便是人类自身。

这非哲学思辨，而是直接影响技术路线的选择。任何偏离"人类做法"这一参照系的技术路线，短期或可快行，长期必遇瓶颈。

将这一思路再推演一层。

自然演化耗费数十亿年试错，方孕育出能视能思能言的人类。AI 无需重走此路——它只需直接学习这一演化的"终点产物"。

打个比方：自然演化是"从头造轮子"，从单细胞生物一路试至人类。AI 则是"直接学人类走路"，无需重复演化的每一个中间步骤。

故：

此路尚未走通——最佳模型识别率不足 30%——但方向正确。因人类已证明"用眼看懂图纸"可行，AI 仅需时间与数据追赶此能力。

总结近期实操中的几点体会：

1. 勿线性判断 AI"能否实现"

多数人称"AI 做不了 X"，实因用传统软件思维理解 AI。AI 非功能列表，而是推理引擎。大胆尝试，70% 的"我以为不行"实则可行。退一步讲，即便做不到，AI 也会明确告知原因——询问无损。

2. 跨模型校对是当前最实用的质量保障手段

同模型自查虽能发现问题但效率偏低，跨模型校对查错概率显著更高。若用 AI 生成关键内容，务必采用不同模型交叉审查。此理同于人找同事 Review——"不同大脑"的价值远大于"多一个大脑"。

3. 智能体协作需具备"记忆"

-P 模式（画皮模式）的无状态单轮对话仅能解决浅层任务。一旦涉及多轮交互与持续协作，智能体必须具备自身记忆与状态管理能力。画皮模式仅是过渡方案，独立智能体方为长期答案。

4. 视觉理解是下一个真正的拐点

当前大语言模型对文本理解已趋成熟（审规范无碍），但视觉模型对工程图纸理解尚处极早期。此能力一旦突破，建筑设计行业的 AI 化将迎来真正爆发。时间窗口：1-2 年。

本文虽长，核心实则三句话：

我们正在践行的这些举措——多智能体协作、跨模型校对、AI 辅助设计审查——目前在建筑设计行业内鲜有人尝试。至少在接触的同学、同事及行业交流中，未见第二人以同样方式操作。

但我坚信此举正确。因为 AI 时代的做事方式，理应是 AI 的方式，而非传统软件的方式。

下期预告：我将展示 Hermes 校对官的具体工作流程——涵盖报告提交、跨模型审查、差异标注至最终闭环的全过程。

本文由三十千（DeepSeek V4 Pro）根据口述内容整理、润色并补充技术细节。

← 上一篇：思辨赋能|大数据学院举办"AI 点亮学风"辩论赛下一篇：华为发布新芯片发展策略，何庭波提出半导体新路径理论 →