NVIDIA重磅开源多模态与机器人技术引爆AI新浪潮

发布时间：2026-05-07 06:19阅读：30

2026-05-07 · 综合整理自 Hugging Face Papers、TechCrunch、arXiv、NVIDIA Blog、Reuters 等

本周，NVIDIA 在人工智能的开放生态领域动作频频，接连推出了三款重磅级产品，覆盖了从模型研发到安全框架，再到机器人平台的全面布局。

Nemotron 3 Nano Omni：单一模型实现文本、图像、视频、音频全模态处理

4月28日，NVIDIA 正式发布了 Nemotron 3 Nano Omni（https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/）。这是一款拥有300亿参数的开放式全模态推理模型，采用了混合MoE架构，每次推理仅激活30亿参数（30B A3B）。该模型支持256K的上下文窗口，能够同时处理文本、图像、视频和音频输入，并在6项主流基准测试中取得了开源全模态模型的最佳成绩。它摒弃了“拼接单一模态模型”的传统方法，而是从底层设计了统一的感知架构，原生支持音频输入。在智能体系统中，它可以直接作为多模态感知子智能体使用。根据NVIDIA官方博客的介绍，在文档理解、视频分析和音频处理等场景下，其吞吐量相比同类开源模型最高可提升9倍（https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/）。

该模型的权重已通过NVIDIA Open Model Agreement开放商用，用户现在可以在Hugging Face、OpenRouter（免费）以及build.nvidia.com上直接获取和使用。该模型仅需约25GB的显存即可在本地运行，并且已经支持llama.cpp GGUF格式。

NemoClaw：为OpenClaw智能体提供安全保障

在GTC 2026大会上，NVIDIA公布了NemoClaw（https://nvidianews.nvidia.com/news/nvidia-announces-nemoclaw），这是一个专为OpenClaw智能体平台设计的开源安全组件。其核心是NVIDIA OpenShell，一个全新的开源运行时环境，旨在为自主智能体提供基于策略驱动的隐私和安全防护。通过一键安装命令，用户可以自动部署OpenClaw、OpenShell以及Nemotron模型，并且默认配置已包含网络、数据访问和安全加固措施。据Mashable的报道（https://mashable.com/article/nvidida-nemoclaw-what-it-is-how-to-try-it），NemoClaw有效地解决了OpenClaw在企业和消费者应用中最关键的安全漏洞。它支持NVIDIA GeForce RTX PC、RTX PRO工作站、DGX Spark（128GB统一内存）和DGX Station等多种设备。

Nemotron 3 Super：120B参数的企业级智能体核心模型

与NemoClaw同期发布的还有Nemotron 3 Super（https://www.nvidia.com/en-us/geforce/news/gfecnt/20264/rtx-ai-garage-gtc-2026-nemoclaw/）。这是一款拥有1200亿参数（120亿激活参数）的开放模型，定位是复杂智能体系统的核心引擎。这三款模型共同构成了NVIDIA的“大-中-小”三级智能体模型矩阵：Nemotron 3 Ultra负责复杂的规划任务，Nemotron 3 Super承担高频执行任务，而Nemotron Nano系列则专注于多模态感知和轻量级交互。

艾伦人工智能研究所（Ai2）发布了MolmoAct2（https://allenai.org/blog/molmoact2），一个完全开源的VLA（视觉-语言-行动）机器人基础模型。该模型在7项仿真和真实世界基准测试中全面超越了Physical Intelligence的π0.5。其核心改进体现在五个方面：专用的VLM骨干网络、新的数据集、开放权重动作分词器（OpenFAST）、针对连续动作预测的架构重新设计，以及自适应推理机制。OpenFAST已在5种不同机器人形态的数百万条轨迹数据上进行了训练。基础模型单次动作调用仅需450毫秒，自适应版本为1300毫秒，比前代模型快了37倍。同时，该机构还发布了MolmoAct 2-Bimanual YAM数据集（https://huggingface.co/collections/allenai/molmoact2-bimanualyam-dataset），包含超过720小时的训练数据。相关论文已发布在arXiv（arXiv:2605.02881 · https://arxiv.org/abs/2605.02881 · https://huggingface.co/papers/2605.02881）。

Genesis AI发布了其首个机器人基础模型GENE-26.5（https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/）。这家获得了Khosla Ventures、Eric Schmidt和Xavier Niel支持的初创公司此前已完成1.05亿美元的种子轮融资。GENE-26.5能够驱动不同类型的机器人，同时发布的传感器手套可作为机器人手的“数字孪生”来收集数据。该机器人手能够完成切番茄、打鸡蛋、解魔方和弹钢琴等精细操作（https://www.prnewswire.com/news-releases/genesis-ai-unveils-gene-26-5--the-first-ai-brain-to-enable-robots-with-human-level-physical-manipulation-capabilities-302763638.html）。

SAP宣布收购德国AI初创公司Prior Labs（https://techcrunch.com/2026/05/05/sap-bets-1-16b-on-18-month-old-german-ai-lab-and-says-yes-to-nemoclaw/）。该公司成立仅18个月，计划在四年内获得10亿欧元（约合11.6亿美元）的投资。Prior Labs由Frank Hutter创立，其TabPFN模型系列专注于结构化/表格数据的优化，下载量已超过300万次。更具象征意义的是，SAP已明确禁止未经授权的AI智能体访问其API，只允许SAP认可的架构（包括其自家的Joule Agents和NVIDIA NemoClaw）接入。这与Salesforce更为开放的Headless 360架构形成了鲜明对比（https://www.theinformation.com/articles/sap-moves-block-openclaw-unauthorized-ai-agents）。

HeavySkill（arXiv:2605.02396 · https://arxiv.org/abs/2605.02396 · https://huggingface.co/papers/2605.02396）提出，智能体复杂推理能力的提升源于模型内部的“内化技能”——即并行推理后进行汇聚的两阶段流程，并且可以通过强化学习进一步扩展。

X2SAM（arXiv:2605.00891 · https://arxiv.org/abs/2605.00891 · https://huggingface.co/papers/2605.00891）是一个统一了图像/视频分割的多模态大语言模型，通过Mask Memory模块实现了时序一致的视频掩码生成，支持多种分割模式。

DeepSeek目前正在洽谈其首轮风险投资（https://techcrunch.com/2026/05/06/deepseek-could-hit-45b-valuation-from-its-first-investment-round/），其估值在数周内从200亿美元飙升至450亿美元。创始人梁文锋此前曾拒绝外部融资，但由于竞争对手持续的挖角压力，公司不得不进行融资以提供员工股份激励。据彭博社报道，本轮融资将由国家集成电路产业投资基金（大基金）领投。如果450亿美元的估值得以实现，DeepSeek将跻身全球估值最高的AI初创公司之列。

前DeepMind研究员David Silver创立的Ineffable Intelligence（https://techcrunch.com/2026/04/27/deepminds-david-silver-just-raised-1-1b-to-build-an-ai-that-learns-without-human-data/）获得了11亿美元的种子轮融资，估值达到51亿美元。此轮融资由Sequoia Capital和Lightspeed领投，Index Ventures、Google、NVIDIA和英国主权AI基金等跟投。Silver的目标是创造一个“超级学习器”，使其能够通过强化学习而非人类数据来获得能力。CNBC称此轮融资为“史上最大种子轮”之一（https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html）。

Meta收购了Assured Robot Intelligence（https://techcrunch.com/2026/05/01/meta-buys-robotics-startup-to-bolster-its-humanoid-ai-ambitions/），这是一家为机器人开发AI模型的初创公司。创始人Xiaolong Wang认为，“真正通用型的物理智能体应是人形的”。该团队将加入Meta的超级智能实验室，贡献其在全身人形控制和自学习技术方面的专长（https://www.bloomberg.com/news/articles/2026-05-01/meta-acquires-assured-robot-intelligence-to-help-build-humanoid-technology）。结合Meta此前公布的2026年1150-1350亿美元的资本支出计划，这显示了其在物理AI领域从软件延伸至硬件的雄心。

Coatue推出了Next Frontier项目（https://techcrunch.com/2026/05/01/coatue-has-a-plan-to-buy-up-land-for-data-centers-possibly-for-anthropic/），该项目旨在购置靠近大型电源的土地并将其改建为数据中心。Coatue已与FluidStack签署了合资协议，FluidStack与Anthropic有价值500亿美元的数据中心建设合同。目前全美有超过1500个新建数据中心在建，Coatue已持有Anthropic、OpenAI、xAI及CoreWeave等公司的重要股份。

PayPal表示（https://techcrunch.com/2026/05/05/paypal-says-its-becoming-a-technology-company-again-that-means-ai/），公司正经历全面的AI转型，将从支付服务提供商重新定位为一家技术公司，并将AI技术融入支付流程、欺诈检测、客户服务以及商家工具等各个环节。

由SAIR基金会主办的Science x AI Summit 2026将于5月12日至13日在硅谷举行（https://sair.foundation/event/science-ai-summit-2026/）。届时将有多位重量级嘉宾发表演讲，包括John Hennessy、Barry Barish（诺贝尔物理学奖得主）、Richard Sutton（强化学习先驱）和Terence Tao（菲尔兹奖得主）等。

论文：arXiv:2605.02881 · https://arxiv.org/abs/2605.02881 · https://huggingface.co/papers/2605.02881 作者团队：艾伦人工智能研究所 (Ai2) 研究背景：视觉-语言-行动（VLA）模型旨在提供通用的机器人控制器，但现有系统在真实部署所需的延迟、泛化能力和数据效率方面仍存在显著差距。MolmoAct2在五个关键维度上取得了突破：采用了专用的VLM骨干网络，引入了新的数据集（包含720小时以上的双臂操作数据），推出了开放权重动作分词器（OpenFAST），对面向连续动作预测的架构进行了重新设计，并实现了自适应的深度推理机制。在7个仿真和真实世界基准测试中，该模型超越了π0.5；MolmoER在13个具身推理基准中也优于GPT-5和Gemini Robotics ER-1.5。基础模型单次推理延迟仅为450毫秒，而自适应深度推理版本为1300毫秒，速度相比前代提升了37倍。

论文：arXiv:2605.02396 · https://arxiv.org/abs/2605.02396 · https://huggingface.co/papers/2605.02396 作者团队：Jianing Wang 等核心洞察：当前智能体编排框架（如Kimi K2、PaCoRe）将“重思考”视为编排层之外的一个独立组件。HeavySkill提出了一个颠覆性的观点：复杂推理性能的提升并非源于精妙的编排代码，而是模型内部的一种“内化技能”——即并行推理后进行汇聚的两阶段流程（parallel reasoning → summarization）。这种技能可以独立于任何编排框架运行。更重要的是，通过强化学习可以进一步扩展这种“重思考”的深度和广度，为自我进化的LLM提供了一条不依赖于脆弱编排层的新途径。

论文：arXiv:2605.00891 · https://arxiv.org/abs/2605.00891 · https://huggingface.co/papers/2605.00891 作者团队：X2SAM Team 研究背景：图像分割技术已趋于通用化（如SAM、SAM2），但视频分割长期面临时序一致性和统一框架缺失的挑战。X2SAM将LLM与Mask Memory模块相结合，实现了时序一致的视频掩码生成。该模型支持通用、开放词汇、指代、推理、对话生成、交互式和视觉接地等七种分割形式。同时，研究团队还提出了V-VGD（视频视觉接地分割）基准，用于评估模型在交互式视觉提示下的视频目标跟踪分割能力。在统一的图像/视频联合训练策略下，X2SAM在视频分割任务上表现强劲，同时保持了图像分割的竞争力以及通用的图像/视频对话能力。

标签：#AI日报#NVIDIA#Nemotron#MolmoAct2#机器人#开源模型#MoE#智能体#DeepSeek#IneffableIntelligence#Meta#物理AI#PriorLabs#SAP#数据中心#PayPal

← 上一篇：算力时代光通信七大龙头：国产替代的核心引擎下一篇：AI漏洞风暴：四大组织预警攻击窗口缩至小时级 →