标签

三 AI 智能体构建审图链:透视工程图纸理解的现实瓶颈

发布时间:2026-05-25 22:54来源:微信阅读:5

从规范核查到图纸解读,再到多智能体协同——一位建筑师关于 AI 实际应用的深度探索与反思。

停更视频已逾一周,并非怠工,而是专注于攻克一项"短期难成"的课题。

我耗费整整七天,致力于训练 AI 识读各类工程图纸(含建筑平、立、剖及节点详图),并尝试赋予其辅助审图的能力。

结论先行:在现有技术框架下,此目标尚未成熟。但这七天的探索历程,让我对 AI 演进路径、多智能体协作机制及视觉语言模型的现状有了更为透彻的认知。本文旨在系统梳理这些思考,分享给同样在探索 AI 落地应用的同仁。

首先探讨核心痛点。

天正 CAD、Revit 等软件生成的图纸数据,AI 能否提取?答案是肯定的。

我已成功提取天正图纸中的全部图元信息——门窗墙柱,每个对象及其属性均可被 AI 获取。然而,获取数据并不等同于理解数据。

对 AI 而言,"门"仅是带坐标的矩形加弧线,"墙"是两条平行线,"窗"不过是四根短线。这些仅是属性值,是一堆冰冷数据。AI 无从知晓这些数据背后的含义——它不知"门"代表出入口,"墙"用于分隔空间,"窗"负责采光通风。

此处需澄清一个关键认知:推理(Reasoning)与理解(Understanding)实为两个截然不同的概念。

AI 目前的强项在于基于文本的推理。这也是为何大语言模型在处理建筑规范时表现优异——规范由自然语言撰写,语言模型天生擅长处理语言中的逻辑关系、适用范围及条件判断。

然而,工程图纸属于视觉语言。平面图上的每个符号、每根线条、每种填充图案,都在传递空间信息。读懂图纸,依赖的是视觉理解能力——需从平面推演立面,由剖面关联详图,凭索引符号跳转至对应节点。这种跨图纸的空间关联与联想能力,恰恰是当前视觉模型的短板。

查阅数据发现:目前全球最强的视觉模型,对工程图纸图元的识别准确率,最优者亦不足 30%。连门窗等基础图元尚且如此,更遑论复杂的节点详图与构造做法。

直言不讳,当前市面上所谓的"AI 审图"软件,绝大多数走的并非人工智能路线。其本质仍是规则引擎——基于 DWG 矢量数据的确定性匹配,或是 Lisp/VBA 脚本的自动化。它们仅能在数字化信息基础上执行规则检查,而非像人类那样"看懂"图纸后再行判断。这并非 AI,而是传统计算机辅助设计(CAD)的延伸。

那么,真正的"AI 看懂图纸"应呈现何种形态?

它应如人类一般:拿到一套图纸,先阅平面图以知房间布局;再览立面图以晓外观形态;继而看剖面图以解竖向关系;遇索引符号,能自动跳转至对应节点详图以核对构造做法。在此过程中,每张图纸并非孤立存在,而是通过定位轴线、标高、索引符号等图元构建起一个立体、联动的信息网络。

这一要求有多高?

打个比方:视频生成模型现已能产出逼真视频,但这属于"推理"产物——模型依据海量训练数据推算出下一像素。它并非"理解"了物体三维结构、物理规律及光线传播后,才渲染出画面。

图纸理解亦是同理。要让 AI 真正"看懂"一张建筑平面图,它必须理解:

这绝非单纯的像素识别问题,而是需要领域知识 + 空间推理 + 规范理解的复合能力。

我判断,此突破至少还需 1-2 年。但鉴于当前视觉大模型的迭代速度——回想从 DALL-E 到 Sora 仅耗时多久——这一时间或许比我们预想的更短。

在等待视觉模型成熟之际,我并未停歇。我将精力转向另一方向:构建多智能体协作的审查流水线。

个人视角难免存在盲区。同理,由单一 AI 模型生成的内容,若由该模型自查,发现问题概率偏低。这非模型能力之过,而是认知角度单一所致——在同一思维框架下,难以跳出自身局限发现错误。正如自检文章,总有"盲区"。

人类的解决之道很简单:请同事协助校对。

AI 的解决方案亦应如此:引入另一模型进行审查。不同模型拥有不同的训练数据、推理倾向及"认知视角"——这种差异本身即构成一种纠错机制。

重要提示:若利用 AI 生成关键内容,务必采用不同模型进行交叉审查。同模型自查并非无效,但检出问题的概率远低于跨模型校对——正如自查文章虽能发现错别字,但结构性逻辑漏洞往往需他人才能察觉。跨模型校对的效果,更接近经验丰富的同事协助 Review。

我目前的多智能体体系架构如下:

关键设计:校对官采用与主编不同的模型。这是整个体系的核心——唯有在不同"认知视角"下,方能真正发现报告中的问题。

实测数据:Hermes(MiniMax M2.7)校对与 Claude 内置校对相比,综合评分 7.4 对 6.8。跨模型校对优势显著——两个独立模型同时产生相同幻觉的概率极低。

在搭建过程中,我发现了一个认知盲区:Claude Code 在调用外部智能体时,默认采用**"画皮模式"——我将其称为画皮模式**,因其宛若只有表皮而无内存的"皮囊",本质上是-P 模式(单次 Prompt,无状态单轮对话)。

何意?即每次指令校对官审查报告,它审完返回结果后便遗忘一切。当下次发现校对结果存疑欲求确认时,必须重新发送所有上下文。这并非"两人持续对话",而是"每次皆从头开始"。

在简单校对任务中此模式尚能凑合,一旦涉及多轮交互(校对→质疑→再校对→确认),效率便急剧下降。每次需将全部对话历史塞入一条 Prompt 发送,既消耗 Token,又易超出上下文窗口。

解决方案:引入独立智能体(Hermes)作为常驻校对官。它具备独立记忆,可维持连续对话,无需每次重新加载上下文。这将"单次委托"转变为"长期协作"。

另一实际难题是:Hermes 运行于 WSL(Windows Subsystem for Linux)的 Linux 环境,而三十千在 Windows 下。此前我始终认为两者无法直接交互调用。

但实际上,完全可以。

我询问 Claude:"Windows 下的 Claude Code 能否调用 WSL 中的 Hermes?"

它迅速给出方案:通过 WSL 命令行桥接,wsl -e hermes -z。一个简单的命令桥便打通了两个智能体的协作通道。

此经验让我领悟一个重要原则:切勿先入为主地给 AI 设限。许多我以为"做不了"的事,询问后发现皆可行。统计显示,近期询问的 7 个"能否实现"的问题中,有 5 个均获得了可行方案。

此处分享个人对 AI 发展逻辑的思考,虽略长但值得探讨。

数年前,马斯克坚持纯视觉自动驾驶路线、拒绝激光雷达时,业界普遍认为其疯了。当时国内自动驾驶公司几乎全走"视觉 + 激光雷达 + 高精地图"的多传感器融合路线。

但回顾当下,马斯克的认知实则超前——他当时已想通一事:人类靠眼睛驾驶,无激光雷达亦能驾驶,机器理应亦然。这是"像人一样感知决策"的思路,本质上即人工智能的思路。

多传感器融合路线短期虽跑得更快,但最终将遭遇天花板:多传感器间的冗余与冲突将成为系统瓶颈,而非优势。激光雷达带来的"安全感"或许反而延缓了视觉能力的真正突破。

地球历经数十亿年生物演化,唯人类发展出最高级智能。人类的视觉、语言及推理系统,是经自然选择反复优化后留存的最佳方案。

这意味着什么?意味着当不知 AI 某项能力如何发展时,最佳参照系便是人类自身。

这非哲学思辨,而是直接影响技术路线的选择。任何偏离"人类做法"这一参照系的技术路线,短期或可快行,长期必遇瓶颈。

将这一思路再推演一层。

自然演化耗费数十亿年试错,方孕育出能视能思能言的人类。AI 无需重走此路——它只需直接学习这一演化的"终点产物"。

打个比方:自然演化是"从头造轮子",从单细胞生物一路试至人类。AI 则是"直接学人类走路",无需重复演化的每一个中间步骤。

故:

此路尚未走通——最佳模型识别率不足 30%——但方向正确。因人类已证明"用眼看懂图纸"可行,AI 仅需时间与数据追赶此能力。

总结近期实操中的几点体会:

1. 勿线性判断 AI"能否实现"

多数人称"AI 做不了 X",实因用传统软件思维理解 AI。AI 非功能列表,而是推理引擎。大胆尝试,70% 的"我以为不行"实则可行。退一步讲,即便做不到,AI 也会明确告知原因——询问无损。

2. 跨模型校对是当前最实用的质量保障手段

同模型自查虽能发现问题但效率偏低,跨模型校对查错概率显著更高。若用 AI 生成关键内容,务必采用不同模型交叉审查。此理同于人找同事 Review——"不同大脑"的价值远大于"多一个大脑"。

3. 智能体协作需具备"记忆"

-P 模式(画皮模式)的无状态单轮对话仅能解决浅层任务。一旦涉及多轮交互与持续协作,智能体必须具备自身记忆与状态管理能力。画皮模式仅是过渡方案,独立智能体方为长期答案。

4. 视觉理解是下一个真正的拐点

当前大语言模型对文本理解已趋成熟(审规范无碍),但视觉模型对工程图纸理解尚处极早期。此能力一旦突破,建筑设计行业的 AI 化将迎来真正爆发。时间窗口:1-2 年。

本文虽长,核心实则三句话:

我们正在践行的这些举措——多智能体协作、跨模型校对、AI 辅助设计审查——目前在建筑设计行业内鲜有人尝试。至少在接触的同学、同事及行业交流中,未见第二人以同样方式操作。

但我坚信此举正确。因为 AI 时代的做事方式,理应是 AI 的方式,而非传统软件的方式。

下期预告:我将展示 Hermes 校对官的具体工作流程——涵盖报告提交、跨模型审查、差异标注至最终闭环的全过程。

本文由三十千(DeepSeek V4 Pro)根据口述内容整理、润色并补充技术细节。