AI-7D-SATS技术架构揭秘:混合模式如何兼顾稳定与智能
本文档旨在向关注AI-7D-SATS技术路线的合作伙伴、客户及技术决策者说明架构选型背后的考量。
AI热潮席卷之下,每位技术从业者都被问过同样的问题:"你们用AI了吗?"
然而"用AI"三个字背后,实际上涵盖了四种截然不同的实现路径。正如出行方式多样,步行、骑车、公交、驾车都能抵达终点,但成本与体验差异显著。选型不当,轻则资源浪费,重则引发事故。
AI-7D-SATS定位为性能测试智能应用,核心能力是辅助用户完成从"需求解读"到"压测运行"再到"根因追溯"的全流程。这里有个关键问题必须先明确:哪些环节适合引入AI,哪些环节坚决不能依赖AI?
本文将详细阐述我们为何采用"Workflow + Multi-Agent"这一复合模式。
在深入讨论具体选型之前,有必要先了解一线工程师思维模式的转变。不理解这一转变,后文四种模式看起来不过是"若干技术方案的罗列";理解之后,你会发现这实际上是工作模式的根本升级。
在传统性能测试作业中,工程师接收压测任务后,需严格按照既定流程逐步执行。
每一处判断逻辑、每一次数据流转,都仰仗工程师的个人经验和手动操作。
这在AI-7D-SATS早期版本中体现得尤为突出。当时为实现流程自动化,性能测试工程师开始将每个步骤固化写死——
这仿佛一位资深工程师编撰了一部厚重的《性能测试操作指南》,洋洋洒洒三百页的操作步骤。但当用户提交一份格式迥异的需求文档,或要求测试一个"非标准REST接口"(如WebSocket、GraphQL),整部指南便陷入僵局——因为"指南中未涵盖此类情形"。
在AI时代,性能测试工程师的核心任务转变为编写"角色定义文档"——若干份职位说明书,明确每个数字员工的职责范围与行为边界。
以AI-7D-SATS为例,当前的性能测试工程师不再编写三百页操作指南,而是定义这样几个角色:
角色说明书编写完成后,该如何运作?答案是:信任角色本身。
你不再事无巨细地管理他的每一步操作。以需求解析专家为例,你告知他:"你担任需求解析专家,职责是从繁杂的输入中提炼出明确的测试需求。你可查阅文档、检索知识库、提问澄清,但不能直接启动压测。我相信你能自主规划工作路径,但超出边界的事项必须上报。"
随后放手让他执行。他可能先通读文档,再标注疑点,再检索历史案例,再整理输出——这些步骤由他在自己的"思维中枢"(LLM)中动态规划,而非代码中预先固化。
Multi-Agent协作的核心价值在于:终于可以从"管控步骤"的困境中抽身,转向"设计角色"的工作重心。
当然,SOP并未完全退出历史舞台。事实上,最优架构往往是"SOP + JD"的融合:
因此接下来要探讨的四种模式,本质上都在回答同一个问题:在这个环节,应该用SOP,还是用JD?
类比:如同咨询一位博学多识的朋友,给他一个明确的问题,他一次性给出答案。
适用场景:
AI-7D-SATS中的应用实例:
用户在AI对话框输入:"请用一句话说明本次压测中CPU使用率95%可能代表什么含义?"
平台直接调用大模型,一次性返回:"CPU使用率95%通常表示计算密集型瓶颈,可能源于业务逻辑复杂、线程竞争激烈或垃圾回收频繁等因素。"
局限性:
类比:工业流水线作业,每个环节都经过预先设计。物料上线后,第一步冲压、第二步焊接、第三步质检,每个环节的操作内容、执行者、异常处理方案,全都写在操作手册中。
适用场景:
性能测试中的实例:
用户登录 → 读取项目信息 → 检查环境配置 → 校验输入参数 → 创建执行记录 → 提交任务队列 → 启动压测 → 采集监控数据 → 存储结果 → 记录审计日志
这条链路的每个环节都是确定的,无需AI来"思考"下一步该做什么。
优势:高度稳定、执行快速、成本低廉、问题排查便捷。
局限性:
类比:聘请了一位专业Agent,赋予他任务目标,配备一套工具(电脑、数据库权限、搜索引擎),让他自行寻找解决方案。
Agent的工作循环:思考 → 行动 → 观察结果 → 再思考 → 再行动,循环迭代,直至任务完成。
适用场景:
性能测试中的实例:
"用户上传了一份PRD文档,请帮我提取需要进行性能测试的场景及指标。"
Agent会打开文档、逐段研读、提取关键信息、整理为结构化的测试场景矩阵。这一过程需要"阅读 → 理解 → 归纳 → 输出",步骤并非预先固定。
优势:能够处理不确定性和复杂场景,具备自主决策能力。
局限性:
类比:面对复杂项目,组建专家团队,成员包括调研员、分析师、质检员、项目经理。各司其职、协同配合,最终产出一份完整报告。
适用场景:
性能测试中的潜在应用:
"请四位专家(需求专家、脚本专家、性能专家、报告专家)共同评审一份测试报告草稿,各自从专业视角提出修改建议。"
优势:专业分工、品质可靠、可交叉验证。
局限性:
选对架构的前提是弄清楚:性能测试本身,属于"高度有序"还是"高度混沌"?
我们用一个简单指标来衡量,即事物的混乱程度(技术术语称为"业务熵")。混乱程度越低,越适合流水线作业;混乱程度越高,越需要Agent乃至专案组介入。
这些环节的共同特征:输入格式固定、执行路径明确。采用流水线处理,既高效又经济。
这些环节的输入不可预测,处理路径需要探索,输出标准也偏主观。采用流水线硬编码,成本高且效果不佳;引入一位"Agent"来处理,反而更为合适。
我们选型时遵循一条原则,源自控制论中的阿什比定律:
"只有多样性才能应对多样性。"
通俗而言:撒多大的网,捕多大的鱼。
但反过来同样成立:
AI-7D-SATS的性能测试链路,横跨"低混乱"和"高混乱"两种状态:
因此我们的选择很清晰:既不做纯流水线,也不做纯Agent团队,而是"以Workflow为主干骨架,在关键节点引入Multi-Agent协助"。这便是混合架构。
在混合架构中,有一个问题必须回答:为何压测执行(启动Locust/JMeter、连接目标服务器)不能交由AI Agent处理?
答案只有三个字:安全、审计、追责。
设想这样的场景:
AI Agent收到用户请求:"帮我压测一下生产环境。"
Agent自行判断:"用户提到生产环境,我认为没问题,直接启动吧。"
后果:生产环境被压垮,核心业务中断30分钟。
谁来承担责任?AI吗?AI不具备法律责任。开发团队吗?"是AI自己做的决定",责任推诿循环开始。
因此我们的底线很清楚:
AI Agent在我们架构中的定位是"建议者",而非"执行者"。它可以生成脚本、提出根因假设、起草报告,但所有高风险操作必须经过人工审批闸机(DispatchGate),由人最终决定是否执行。
实际决策时,我们用三把标尺衡量一个需求该采用何种架构:
这件事本身的复杂程度如何?
这件事存在多大"不确定性"?
这件事对速度、成本、资源的敏感度如何?
三把标尺中,Performance拥有一票否决权。
即便复杂度和不确定度都很高(理论上应采用专家团),但如果性能要求极其严苛(例如压测根因定位必须在5分钟内完成),我们会强制降级,缩小能力边界,将不确定环节尽量固定化,退回到"Workflow骨架 + 局部Multi-Agent"的模式。
引入AI能力并非一蹴而就,业界有一条公认的六阶演进路线,这也是AI-7D-SATS的建设蓝图:
这条路线图的核心思想是:先单点验证,再生态扩展,随后谈协作,最后上护栏。
各阶段之间存在明确的依赖和先后关系:
我们并非永久排斥Multi-Agent。满足以下条件时,可能会引入"专家团"模式:
不是不用,是时机未到。
AI-7D-SATS选择混合架构,基于对业务的深刻理解:
Workflow保障稳定,Multi-Agent攻克难题。各司其职,各尽其用。这就是我们的方案。