英伟达推出NVIDIA XR AI：打造AR与XR设备智能体新范式

发布时间：2026-06-18 13:03阅读：15

解放双手、AI时刻相伴

（映维网Nweon 2026年06月18日）致力于AR眼镜及可穿戴设备开发的工程师们正面临基础设施层面的挑战。硬件准备就绪，但构建AI体验需整合实时音视频流、多模态模型、企业数据、工具调用、部署架构及设备专用运行时。

英伟达专为AR眼镜及XR设备打造的AI开发平台NVIDIA XR AI，旨在破解这一难题，为连接XR设备与部署于云端、数据中心、工作站或边缘的GPU加速AI服务，提供可复用的底层支撑。

NVIDIA XR AI现已开启公测，开发者可利用开源库为AI眼镜、AR眼镜及XR头显构建智能体。这些XR智能体不仅能“看见”用户所见，还能理解语音或文本意图，调用企业工具，并在同一XR会话中作出响应。它们可辅助一线员工精准获取信息、引导操作流程、验证结果并留存证据。

英伟达在医疗与制造领域的合作伙伴展示了该模式的实际应用案例。斯坦福大学医学院与普林斯顿大学的研究人员探索了将XR与AI工作流应用于干细胞疗法研究，协助研究人员在专注复杂操作时获取上下文信息并与实验室系统交互。

在制造业，西门子正探索如何利用NVIDIA XR AI与NVIDIA DGX Spark，助力工厂工程师查询维护资料、排查故障、验证作业并记录车间实况。

下文将分步指导如何构建适用于你场景的XR智能体。同时探讨XR AI如何融合NVIDIA Cosmos构建视觉基础，利用NVIDIA Nemotron模型实现语音优先交互，借助MCP打通企业连接，并通过NVIDIA NeMo Agent Toolkit等框架实现灵活的智能体编排。

XR智能体的组件与架构

XR智能体始于用户XR设备提供的实时上下文。摄像头帧、麦克风音频及数据消息汇入XR Media Hub，随后被路由至能理解用户环境与意图的模型、工具及智能体。NVIDIA Cosmos模型奠定视觉基础；NVIDIA Nemotron模型负责语言理解、推理及工具调用；MCP服务器开放企业工具与数据源。借助NVIDIA NeMo Agent Toolkit等智能体框架，可编排跨模型与工具的工作流；若应用需丰富3D交互，NVIDIA CloudXR可注入渲染的空间内容。

XR AI通过分离媒体传输、模型服务、工具访问、智能体编排及客户端交付，维持架构的模块化。视频像素保留在共享内存中，仅轻量级元数据在系统内流转，确保智能体仅在任务需要时检索图像数据。此举减少了冗余的模型推理与数据搬运，开发者无需重构整个智能体即可替换客户端、模型、MCP服务器、编排框架及部署环境。

同一设计同样支持多用户与多智能体场景。participant identity充当路由边界：多个客户端可接入同一Hub，多个智能体可观测相同数据流，每个响应均路由至正确的participant。该模式使基础平台能够支持视觉理解、语音交互、企业工具调用、实时推理及上下文感知的XR响应，并灵活部署于AI眼镜、AR眼镜、XR头显、移动设备、Web客户端及CloudXR驱动的体验中。

快速上手

NVIDIA XR AI现已开启公测。以下介绍如何利用XR AI迅速获得可运行的XR智能体，涵盖：

实时摄像头、麦克风及设备数据流

实时多模态交互

基于Cosmos驱动的VLM实现视觉基础

结合语音识别与Nemotron模型实现语音交互

借助MCP实现企业级连接

可检索的视觉知识捕获与检索工作流

可选的通过NeMo Agent Toolkit或其他框架实现的智能体编排

可选的通过CloudXR渲染的空间内容

尽管各行业具体实现细节各异，但底层架构基本一致。

利用公开测试版构建首个XR智能体

步骤1. 克隆XR AI仓库

GitHub仓库包含示例智能体、模型服务器启动器、MCP服务器、Web客户端、XR工作流及核心媒体基础设施。理解系统的最快方式是从一个简易的多模态智能体入手，随后逐层叠加功能。

步骤2. 启动AI服务

使用可独立启动的共享AI服务：

这将启动演示所需的模型进程，并在后台加载权重。

在当前仓库中，模型服务器栈包括：

nvidia/parakeet-tdt-0.6b-v3用于语音转文本

nvidia/Cosmos-Reason1-7B用于视觉 - 语言推理

nvidia/Llama-3.1-Nemotron-Nano-8B-v1用于快速、低延迟的语言响应

NVIDIA-Nemotron-3-Nano-30B-A3B用于更深度的工具调用工作流

agent-sdk/xr-ai-models包确保模型层的灵活性。工作进程通过配置引用llm、agent_llm、vlm、stt、tts等逻辑服务，开发者无需修改智能体逻辑即可替换端点、使用云托管模型或接入OpenAI兼容API。

至此，用于视觉理解、语音识别、语言推理及语音响应的核心AI服务已准备就绪。

步骤3. 运行传感器优先的XR智能体

启动最简可运行智能体：

服务启动后，将输出Web客户端URL及身份验证令牌。

打开Web客户端，建立连接，随后发送诸如ping的指令，或通过麦克风提问。

工作流极为简洁：

客户端流式传输摄像头、麦克风及数据消息。

XR AI通过XR Media Hub路由媒体数据。

语音被转换为文本。

利用Cosmos驱动的VLM路径分析最新摄像头帧。

智能体生成响应。

响应以文本和合成语音两种形式返回。

此刻你已拥有一个可运行的XR智能体。它能聆听、理解用户所见、基于视觉上下文推理，并通过同一会话以文本和语音作出回应。

在接入企业系统、RAG管道或空间渲染之前，这已验证了最关键的能力：基于用户环境的实时多模态交互。

步骤4. 通过MCP连接企业数据

大多数企业智能体不仅需要实时感知。研究人员可能需要协议步骤、实验元数据或数据集访问；现场技术人员可能需要维护记录；制造工程师可能需要作业指导、控制器状态或数字孪生信息。XR AI利用MCP作为相关工作的集成层。

仓库中包含针对XR特定能力的MCP服务器：

vlm-mcp用于视觉问答

video-mcp用于视频分析与查询

render-mcp用于场景操控

oxr-mcp用于OpenXR空间信息

vec-mcp用于向量和空间工具

transcript-mcp用于转录文本的摄取与检索

开发者亦可针对企业系统、检索增强生成、数据库、数字孪生、资产管理系统及领域特定工作流构建自定义MCP服务器。

众多组织对从物理世界捕获并理解视觉信息感兴趣。XR智能体可观察操作流程、检查、维护活动或研究工作流，随后利用NVIDIA Video Search and Summarization等技术对信息进行索引、摘要及后续检索。随时间推移，这将形成可搜索的视觉知识库，支持报告、培训、合规、运营审查及检索增强生成工作流。

至此，智能体开始超越感知，迈入企业行动与组织记忆领域。

步骤5. 添加智能体编排

以下示例改编自NeMo Agent Toolkit MCP客户端工作流模式。实际应用中，此配置将位于NeMo Agent Toolkit工作流定义中，允许智能体发现由XR AI MCP服务器提供的工具。

关键点不在于框架本身，而在于XR AI为实时媒体、多模态感知及企业连接提供了一致基础，同时允许开发者选择最适合其环境的编排方式。

对更高级编排工作流感兴趣的开发者应查阅NeMo Agent Toolkit文档，其中包含MCP集成、工具调用、多智能体系统及基于RAG工作流的详细示例。

步骤6. 添加CloudXR渲染的空间体验

并非每个XR工作流都需要渲染3D内容。部分智能体仅需摄像头、麦克风、语言及企业工具。当工作流受益于空间可视化时，XR AI可将智能体层与NVIDIA CloudXR结合。

该工作流启动XR Media Hub、CloudXR运行时、模型服务、MCP服务器及一个智能体工作进程。

智能体可通过MCP调用渲染工具，在用户空间环境中创建、更新及操控对象。CloudXR将生成的体验从GPU基础设施流式传输至客户端设备。

所述演示同时展示了一种实用的生产模式：较小模型处理快速确认与状态更新，较大模型负责深层推理与工具使用。用户在更复杂操作后台继续运行时，能即时获得反馈。在此阶段，XR智能体既能与物理环境交互，又能与渲染的空间内容互动。

现在，你已拥有一个可运行的XR智能体，可随时针对具体用例进行定制。

代码请访问这里

文档请访问这里

更多使用Nemo Agent Toolkit构建代理的信息请访问这里

更多关于使用CloudXR的信息请访问这里

--- 原文链接：https://news.nweon.com/141199

← 上一篇：VR新突破：无需摘头盔，AI技术实现虚实物品交互下一篇：工信部发布AI与通信融合创新三年行动方案 →