标签

NVIDIA重磅开源多模态与机器人技术引爆AI新浪潮

发布时间:2026-05-07 06:19来源:微信阅读:5

2026-05-07 · 综合整理自 Hugging Face Papers、TechCrunch、arXiv、NVIDIA Blog、Reuters 等

本周,NVIDIA 在人工智能的开放生态领域动作频频,接连推出了三款重磅级产品,覆盖了从模型研发到安全框架,再到机器人平台的全面布局。

Nemotron 3 Nano Omni:单一模型实现文本、图像、视频、音频全模态处理

4月28日,NVIDIA 正式发布了 Nemotron 3 Nano Omni(https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/)。这是一款拥有300亿参数的开放式全模态推理模型,采用了混合MoE架构,每次推理仅激活30亿参数(30B A3B)。该模型支持256K的上下文窗口,能够同时处理文本、图像、视频和音频输入,并在6项主流基准测试中取得了开源全模态模型的最佳成绩。它摒弃了“拼接单一模态模型”的传统方法,而是从底层设计了统一的感知架构,原生支持音频输入。在智能体系统中,它可以直接作为多模态感知子智能体使用。根据NVIDIA官方博客的介绍,在文档理解、视频分析和音频处理等场景下,其吞吐量相比同类开源模型最高可提升9倍(https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/)。

该模型的权重已通过NVIDIA Open Model Agreement开放商用,用户现在可以在Hugging Face、OpenRouter(免费)以及build.nvidia.com上直接获取和使用。该模型仅需约25GB的显存即可在本地运行,并且已经支持llama.cpp GGUF格式。

NemoClaw:为OpenClaw智能体提供安全保障

在GTC 2026大会上,NVIDIA公布了NemoClaw(https://nvidianews.nvidia.com/news/nvidia-announces-nemoclaw),这是一个专为OpenClaw智能体平台设计的开源安全组件。其核心是NVIDIA OpenShell,一个全新的开源运行时环境,旨在为自主智能体提供基于策略驱动的隐私和安全防护。通过一键安装命令,用户可以自动部署OpenClaw、OpenShell以及Nemotron模型,并且默认配置已包含网络、数据访问和安全加固措施。据Mashable的报道(https://mashable.com/article/nvidida-nemoclaw-what-it-is-how-to-try-it),NemoClaw有效地解决了OpenClaw在企业和消费者应用中最关键的安全漏洞。它支持NVIDIA GeForce RTX PC、RTX PRO工作站、DGX Spark(128GB统一内存)和DGX Station等多种设备。

Nemotron 3 Super:120B参数的企业级智能体核心模型

与NemoClaw同期发布的还有Nemotron 3 Super(https://www.nvidia.com/en-us/geforce/news/gfecnt/20264/rtx-ai-garage-gtc-2026-nemoclaw/)。这是一款拥有1200亿参数(120亿激活参数)的开放模型,定位是复杂智能体系统的核心引擎。这三款模型共同构成了NVIDIA的“大-中-小”三级智能体模型矩阵:Nemotron 3 Ultra负责复杂的规划任务,Nemotron 3 Super承担高频执行任务,而Nemotron Nano系列则专注于多模态感知和轻量级交互。

艾伦人工智能研究所(Ai2)发布了MolmoAct2(https://allenai.org/blog/molmoact2),一个完全开源的VLA(视觉-语言-行动)机器人基础模型。该模型在7项仿真和真实世界基准测试中全面超越了Physical Intelligence的π0.5。其核心改进体现在五个方面:专用的VLM骨干网络、新的数据集、开放权重动作分词器(OpenFAST)、针对连续动作预测的架构重新设计,以及自适应推理机制。OpenFAST已在5种不同机器人形态的数百万条轨迹数据上进行了训练。基础模型单次动作调用仅需450毫秒,自适应版本为1300毫秒,比前代模型快了37倍。同时,该机构还发布了MolmoAct 2-Bimanual YAM数据集(https://huggingface.co/collections/allenai/molmoact2-bimanualyam-dataset),包含超过720小时的训练数据。相关论文已发布在arXiv(arXiv:2605.02881 · https://arxiv.org/abs/2605.02881 · https://huggingface.co/papers/2605.02881)。

Genesis AI发布了其首个机器人基础模型GENE-26.5(https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/)。这家获得了Khosla Ventures、Eric Schmidt和Xavier Niel支持的初创公司此前已完成1.05亿美元的种子轮融资。GENE-26.5能够驱动不同类型的机器人,同时发布的传感器手套可作为机器人手的“数字孪生”来收集数据。该机器人手能够完成切番茄、打鸡蛋、解魔方和弹钢琴等精细操作(https://www.prnewswire.com/news-releases/genesis-ai-unveils-gene-26-5--the-first-ai-brain-to-enable-robots-with-human-level-physical-manipulation-capabilities-302763638.html)。

SAP宣布收购德国AI初创公司Prior Labs(https://techcrunch.com/2026/05/05/sap-bets-1-16b-on-18-month-old-german-ai-lab-and-says-yes-to-nemoclaw/)。该公司成立仅18个月,计划在四年内获得10亿欧元(约合11.6亿美元)的投资。Prior Labs由Frank Hutter创立,其TabPFN模型系列专注于结构化/表格数据的优化,下载量已超过300万次。更具象征意义的是,SAP已明确禁止未经授权的AI智能体访问其API,只允许SAP认可的架构(包括其自家的Joule Agents和NVIDIA NemoClaw)接入。这与Salesforce更为开放的Headless 360架构形成了鲜明对比(https://www.theinformation.com/articles/sap-moves-block-openclaw-unauthorized-ai-agents)。

HeavySkill(arXiv:2605.02396 · https://arxiv.org/abs/2605.02396 · https://huggingface.co/papers/2605.02396)提出,智能体复杂推理能力的提升源于模型内部的“内化技能”——即并行推理后进行汇聚的两阶段流程,并且可以通过强化学习进一步扩展。

X2SAM(arXiv:2605.00891 · https://arxiv.org/abs/2605.00891 · https://huggingface.co/papers/2605.00891)是一个统一了图像/视频分割的多模态大语言模型,通过Mask Memory模块实现了时序一致的视频掩码生成,支持多种分割模式。

DeepSeek目前正在洽谈其首轮风险投资(https://techcrunch.com/2026/05/06/deepseek-could-hit-45b-valuation-from-its-first-investment-round/),其估值在数周内从200亿美元飙升至450亿美元。创始人梁文锋此前曾拒绝外部融资,但由于竞争对手持续的挖角压力,公司不得不进行融资以提供员工股份激励。据彭博社报道,本轮融资将由国家集成电路产业投资基金(大基金)领投。如果450亿美元的估值得以实现,DeepSeek将跻身全球估值最高的AI初创公司之列。

前DeepMind研究员David Silver创立的Ineffable Intelligence(https://techcrunch.com/2026/04/27/deepminds-david-silver-just-raised-1-1b-to-build-an-ai-that-learns-without-human-data/)获得了11亿美元的种子轮融资,估值达到51亿美元。此轮融资由Sequoia Capital和Lightspeed领投,Index Ventures、Google、NVIDIA和英国主权AI基金等跟投。Silver的目标是创造一个“超级学习器”,使其能够通过强化学习而非人类数据来获得能力。CNBC称此轮融资为“史上最大种子轮”之一(https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html)。

Meta收购了Assured Robot Intelligence(https://techcrunch.com/2026/05/01/meta-buys-robotics-startup-to-bolster-its-humanoid-ai-ambitions/),这是一家为机器人开发AI模型的初创公司。创始人Xiaolong Wang认为,“真正通用型的物理智能体应是人形的”。该团队将加入Meta的超级智能实验室,贡献其在全身人形控制和自学习技术方面的专长(https://www.bloomberg.com/news/articles/2026-05-01/meta-acquires-assured-robot-intelligence-to-help-build-humanoid-technology)。结合Meta此前公布的2026年1150-1350亿美元的资本支出计划,这显示了其在物理AI领域从软件延伸至硬件的雄心。

Coatue推出了Next Frontier项目(https://techcrunch.com/2026/05/01/coatue-has-a-plan-to-buy-up-land-for-data-centers-possibly-for-anthropic/),该项目旨在购置靠近大型电源的土地并将其改建为数据中心。Coatue已与FluidStack签署了合资协议,FluidStack与Anthropic有价值500亿美元的数据中心建设合同。目前全美有超过1500个新建数据中心在建,Coatue已持有Anthropic、OpenAI、xAI及CoreWeave等公司的重要股份。

PayPal表示(https://techcrunch.com/2026/05/05/paypal-says-its-becoming-a-technology-company-again-that-means-ai/),公司正经历全面的AI转型,将从支付服务提供商重新定位为一家技术公司,并将AI技术融入支付流程、欺诈检测、客户服务以及商家工具等各个环节。

由SAIR基金会主办的Science x AI Summit 2026将于5月12日至13日在硅谷举行(https://sair.foundation/event/science-ai-summit-2026/)。届时将有多位重量级嘉宾发表演讲,包括John Hennessy、Barry Barish(诺贝尔物理学奖得主)、Richard Sutton(强化学习先驱)和Terence Tao(菲尔兹奖得主)等。

论文:arXiv:2605.02881 · https://arxiv.org/abs/2605.02881 · https://huggingface.co/papers/2605.02881 作者团队:艾伦人工智能研究所 (Ai2) 研究背景:视觉-语言-行动(VLA)模型旨在提供通用的机器人控制器,但现有系统在真实部署所需的延迟、泛化能力和数据效率方面仍存在显著差距。MolmoAct2在五个关键维度上取得了突破:采用了专用的VLM骨干网络,引入了新的数据集(包含720小时以上的双臂操作数据),推出了开放权重动作分词器(OpenFAST),对面向连续动作预测的架构进行了重新设计,并实现了自适应的深度推理机制。在7个仿真和真实世界基准测试中,该模型超越了π0.5;MolmoER在13个具身推理基准中也优于GPT-5和Gemini Robotics ER-1.5。基础模型单次推理延迟仅为450毫秒,而自适应深度推理版本为1300毫秒,速度相比前代提升了37倍。

论文:arXiv:2605.02396 · https://arxiv.org/abs/2605.02396 · https://huggingface.co/papers/2605.02396 作者团队:Jianing Wang 等 核心洞察:当前智能体编排框架(如Kimi K2、PaCoRe)将“重思考”视为编排层之外的一个独立组件。HeavySkill提出了一个颠覆性的观点:复杂推理性能的提升并非源于精妙的编排代码,而是模型内部的一种“内化技能”——即并行推理后进行汇聚的两阶段流程(parallel reasoning → summarization)。这种技能可以独立于任何编排框架运行。更重要的是,通过强化学习可以进一步扩展这种“重思考”的深度和广度,为自我进化的LLM提供了一条不依赖于脆弱编排层的新途径。

论文:arXiv:2605.00891 · https://arxiv.org/abs/2605.00891 · https://huggingface.co/papers/2605.00891 作者团队:X2SAM Team 研究背景:图像分割技术已趋于通用化(如SAM、SAM2),但视频分割长期面临时序一致性和统一框架缺失的挑战。X2SAM将LLM与Mask Memory模块相结合,实现了时序一致的视频掩码生成。该模型支持通用、开放词汇、指代、推理、对话生成、交互式和视觉接地等七种分割形式。同时,研究团队还提出了V-VGD(视频视觉接地分割)基准,用于评估模型在交互式视觉提示下的视频目标跟踪分割能力。在统一的图像/视频联合训练策略下,X2SAM在视频分割任务上表现强劲,同时保持了图像分割的竞争力以及通用的图像/视频对话能力。

标签:#AI日报#NVIDIA#Nemotron#MolmoAct2#机器人#开源模型#MoE#智能体#DeepSeek#IneffableIntelligence#Meta#物理AI#PriorLabs#SAP#数据中心#PayPal