AI Mission Cloud分层架构:控制面+编排面+模型注册
✅ 建议打造“支持插拔的AI推理框架 + 面向任务的能力抽象”
✅ 将 YOLO / CLIP / VLM / VLA 定义为“算子或能力模块”
端侧 AI 充当“大脑级协同者”
云端 AI 对应“认知与任务规划层”
YOLO / 深度 / 跟踪
CLIP Embedding(可选)
推理状态监控
Detection Schema
Embedding Schema
Event Schema
CLIP / VLM
规则引擎
多模态关联推理
任务 DSL
状态机 / 行为树
VLA
AI Mission Cloud 负责
模型注册规范(Model Manifest)
推理接口规范(Input / Output Schema)
性能约束(FPS / Latency / Memory)
模型热更新 / 回滚机制
合作伙伴负责:
数据
标注
训练
精度指标
是否需要 VLA / VLN
以下场景不值得现在就上:
仅 DAA、防撞、巡检
规则清晰、目标固定
强实时闭环控制
YOLO + 规则 + 状态机 = 稳定可靠
当遇到以下需求:
「看懂任务说明」
「自然语言任务」
「跨感知-决策-动作」
「任务级泛化」
例如:
“巡检该区域,如果发现异常就靠近拍照,然后再返回。”
这时:
VLM:理解“看到了什么”
VLA:决定“下一步做什么”
端侧 YOLO 框架:
模型加载接口
统一输出结构(Detection Schema)
推理状态管理(帧率 / 置信度 / 算力占用)
端侧 CLIP 可以用于:
云端 CLIP 的典型角色:
文本 ↔ 图像 / 目标的语义对齐
“是否出现过 X 类目标”
跨任务、跨设备的语义一致性
端侧 AI vs 云端 AI 部署
关键词:实时、确定性、闭环
端侧应当只做:
感知(YOLO / 深度 / 跟踪)
低阶理解(CLIP embedding、类别映射)
安全决策(防撞、避障、告警)
数据裁剪与结构化上传
👉 输出的是:
结构化事件
语义向量
低频关键帧
关键词:语义、任务、推理、不确定性
云端应该承担:
多模态语义推理(CLIP / VLM)
跨时间的任务理解
任务规划 / 规则引擎
多设备协同理解
👉 云端不追求毫秒级实时,而强调:
可解释
可扩展
可组合
全国产通感算控一体化AiBrainBox