程远教授:AI的未来在物理世界,“感算一体”是关键
当前,关于人工智能(AI)的讨论主要集中在大模型领域。然而,另一条更贴近现实、发展迅速的路径——端侧AI,正悄然兴起。
端侧AI,顾名思义,是将AI算法和模型直接部署在机器人、智能汽车、消费电子、智能制造等终端设备上。这种技术模式使得设备能够独立完成数据采集、分析、推理和决策,无需依赖云端服务器的持续网络连接和数据传输。
以具身机器人为例,若其决策完全依赖云端计算,网络不稳定可能导致抓取、避障或交互动作出现延迟,从而影响操作的安全性和自然流畅度。而搭载了端侧AI的机器人,则能在本地以毫秒级速度完成手势识别、物体抓取或行人避让等任务。这不仅能有效降低功耗,还能确保在交互过程中敏感的视频或传感数据不被外传,从而显著提升隐私和安全性。
上海交通大学人工智能学院副教授程远的研究方向在此领域极具代表性。他从清华大学的前沿交叉学科研究,到上海交通大学的系统化研究,再到跨越学术界与产业界的多段经历,始终致力于解决一个核心问题:如何让智能真正实现“落地”?
在程远看来,他几乎总是从“系统性工程”的角度来解答每一个问题。无论是探索突破传统存算瓶颈的光子计算,还是重构端侧硬件架构,他都认为,AI的规模化应用并非依赖于算法的单点突破,而是需要算力基础、物理器件以及软硬件协同设计的同步发展。
这一理念同样体现在他的创业实践中。2019年,程远在上交大攻读博士学位期间,创立了辛米尔科技,并担任公司首席科学家。作为一家专注于端侧AI的公司,辛米尔致力于打破传统冯·诺依曼架构的局限,实现感知、计算与行动的深度融合。他们认为,AI发展的下半场,需要的不是更大的模型,而是更高效、更实时、能够嵌入物理设备的硬件原生智能系统。
而这种硬件原生的端侧能力,正是Agentic AI从“对话”走向“行动”的关键。当设备具备本地实时感知与自主决策能力后,AI便能摆脱对云端调度的绝对依赖,在真实场景中形成感知-规划-执行的闭环,真正成为与环境持续交互的主体。
以下为对话内容:
DeepTech:2026年被认为是Agentic AI的元年,AI正从聊天机器人向可行动的智能体转变。您如何看待这股Agentic AI的热潮?它与此前的大模型热潮有何本质区别?
程远:这波热潮最核心的变化在于,AI真正从“只会说”演进到“会去做”。前一轮大模型热潮更多聚焦于内容生成和问题回答,本质上是信息输出。而Agentic AI则更进一步,它进入了任务闭环,需要感知环境、做出判断、调用工具,并最终落实到具体的行动上。
最大的区别体现在评判标准上。过去大家更关心模型是否“聪明”,现在则更关注它能否完成交代的任务,并且要做到稳定、低延迟、鲁棒可靠。这意味着问题已不再仅仅是模型层面的挑战,而是上升到了系统性的层面。可以说,AI的上半场解决了“大模型能不能做出来”的问题,而下半场则需要回答“能不能真正用起来,并且规模化部署”。Agent热潮正是标志着这个转折点的到来。
DeepTech:目前大多数人谈论Agentic AI时,首先想到的是软件层面的智能体,例如近期备受关注的OpenClaw等。它们能够完成订机票、写代码等基础性工作。但您专注于硬件和端侧AI,能否阐述一下端侧Agent与云端Agent之间的关系?您曾提到Agent的未来不一定在云端,这一观点的依据是什么?
程远:我始终认为,云端与端侧并非是替代关系,而是分工协作的关系。云端更像是大脑,擅长复杂的规划、长链条的逻辑推理和知识调用。而端侧则更像是我们的反射神经,负责本地高频、实时性的闭环响应。
一旦进入物理世界,许多事情是无法等待的。例如,机器人的避障、数据抓取、安全防护;制造业中人机协作的安全控制与效能提升;以及消费设备的实时交互和响应,这些都要求在本地快速完成感知、计算和动作的闭环。不可能所有数据都传输到计算中心再返回。
因此,未来真正成熟的Agent,必然不是只存在于云端,而是云端与端侧协同的系统。越是贴近真实物理世界,这一趋势就越明显。因为在具身智能、先进制造、消费终端等场景中,时延、功耗、带宽、隐私和成本都是不可回避的约束。
DeepTech:为了更好地实现云端和端侧的协同,您重点研究的技术方向是“感算一体”。能否用通俗易懂的语言解释一下“感算一体”的含义及其特点?
程远:通俗来讲,“感算一体”就是尽量避免数据的频繁搬运,而是在数据产生和收集的地方就完成计算。在传统架构中,感知、存储和计算是分离的。处理一个数据需要经历采集—传输—存储—计算的流程。这个过程会消耗大量的通信开销,产生显著的功耗和延时。实际上,很多成本都花费在数据搬运上,这部分甚至可能占到总处理量的70%以上。
“感算一体”的特点在于将计算能力融合到感知侧,从而使系统能够更快、更高效、更经济地处理多模态数据,例如视频流、音频流、传感信号等。它尤其适用于那些既需要观察周边环境,又需要立即做出反应的系统,如机器人、智能制造设备、消费电子终端等。
DeepTech:然而,端侧AI客户普遍面临“效率三角”的挑战:既要求毫秒级的实时响应,又要实现极低的功耗和部署成本,同时还要处理视频流和时序信号这类多模态数据。在传统架构下,这三者似乎是相互矛盾的。那么,“感算一体”是如何同时解决这三个问题的?
程远:在传统架构下,这三者确实常常相互冲突。如果追求更快的速度,就需要堆砌算力;一旦算力增加,功耗和成本就会随之上升;再加上多模态连续数据,系统的复杂性会进一步提高。因此,许多方案在实验室阶段能够运行,但在实际应用中却显得不够经济。
“感算一体”的关键在于,它并非简单地实现各项功能,而是致力于缩短处理链路,摒弃无效的数据处理和通信环节,从源头即完成计算、决策与行动。这样一来,实时性、功耗和成本之间的矛盾就不再是完全对立的了。
例如,在人机协作场景中,机器人需要实时判断人是否进入危险区域、人与设备的距离是否越界、当前动作是否存在安全风险。在这种情况下,真正重要的是“发现风险并立即响应”,而非“看得非常懂”。再如,在消费终端领域,设备越来越强调本地实时交互,此时系统既要保持低功耗常开状态,又要能够快速响应用户的动作和环境变化。
DeepTech:传统架构的这一障碍一直存在。为何在过去十几年里,它未能实现大规模产业化?当时遇到了哪些困难?
程远:这不仅仅是概念层面的问题,更多的是工程化方面的难题。其原理大家早已熟知,但过去难以实现产业化,是因为它依赖于全链条的协同。仅仅拥有一款芯片、开发出某个算法或一个SoC模组,都无法支撑起“感算一体”系统。它要求算法、芯片、传感、系统以及具体应用场景能够融会贯通,才能真正实现落地。
过去许多方案停留在实验验证阶段,本质上未能解决工程上的关键问题:能否稳定运行?能否适应不同场景?能否真正节约成本?能否实现量产交付?若这些问题得不到解决,“感算一体”的原理就无法转化为实际产品。
我们团队这些年一直将此视为一项系统工程来推进,而非仅仅是单点技术。我们强调算力与算法协同设计的理念,更注重从真实场景反推技术路线。因此,归根结底,真正推动“感算一体”技术落地的,并非某个单一的演示,而是我们成功实现了系统级别的标准化应用。
DeepTech:当前视觉端侧AI正从简单的“判别式任务”(如OCR、物体检测)向“生成式/世界模型任务”演进。如果感知端不再仅仅输出坐标或标签,而是需要输出复杂的连续特征空间,甚至是实时生成动作轨迹,那么“感算一体”架构将如何保持其功耗优势?它又如何避免沦为只能处理简单任务的“特种芯片”,从而能够承载更复杂的端侧Agent?
程远:“感算一体”架构并非为某些简单专用的“特种芯片”而设计,恰恰相反,它是为了给更复杂的端侧Agent提供通用的算力基础设施而提出的。
传统端侧AI的问题在于,传感、存储、计算和执行是分离的。它首先采集物理世界中的连续信号,然后将其传输到后端芯片进行计算。这种模式在判别式任务中尚能奏效,但当任务涉及世界模型、动作生成和实时交互时,数据量、时延和功耗都会迅速攀升。因为物理世界并非一张静态图片,而是由视频、声音、触觉、运动状态和环境变化共同构成的连续多模态流。
“感算一体”的优势在于,它将计算能力部署得更靠近数据产生的位置,在感知发生的瞬间就完成一部分结构化理解。它不只是简单地输出一个标签,而是将原始的、高冗余的、连续变化的物理信号,转化为更紧凑、更具语义、更适合Agent使用的特征空间。因此,任务越复杂、数据越连续,“感算一体”在减少数据搬运和无效计算方面的价值就越发凸显。
作为端侧智能的底层架构,“感算一体”未来必将朝着通用化、可重构和可持续学习的方向发展:它既能处理视觉信息,也能融合声音、触觉、传感信号;既能支持固定任务,也能根据场景变化进行持续适配;既能服务于判别式任务,也能支撑世界模型、动作规划以及本地Agent的自我进化。
DeepTech:您将端侧比作反射神经,云端比作大脑。但以具身智能为例,目前的瓶颈往往在于“脑手不一”,即云端理解了意图,但端侧系统却无法精准执行。在您的研究中,如何解决云端与端侧之间的语义鸿沟?为了实现真正的Agentic AI,我们是否需要一种全新的、能够跨越云端与硬件层的统一通信协议?
程远:“脑手不一”确实是当前具身智能面临的一个重大问题。云端的大模型可能理解了行动意图,但端侧系统在实际执行时,会面临传感器噪声、控制延迟以及安全边界的不确定性。
具身智能正朝着分层架构发展,而非将所有智能都集中在大脑中完成。云端更适合进行高级计算,例如复杂规划、长链条推理以及多任务调度;而端侧则需要具备原生智能,在本地完成高频、实时、安全的感知、决策和行动。“脑手不一”的本质,在于高级语义与底层执行之间缺乏一个中间层。
未来的系统将更像一个多Agent协同体系:云端设有规划Agent,端侧则拥有数据Agent、安全Agent、效能Agent,甚至每个关键传感器和执行部件都具备局部智能。它们之间的关系并非简单的API调用,而是需要新的任务表达、状态反馈和约束通信机制。
DeepTech:您认为在现阶段,将“感算一体”与具身智能相结合,达到我们刚才描述的理想状态,最大的困难是什么?
程远:目前这是一个系统级的难题,需要从多个层面进行突破:
首先是算力层面,我们需要更强大的芯片来部署能够在端侧执行任务的Agent系统。其次是算法层面,需要更轻量化、更高效的算法架构来完成预期的功能。最后是系统层面,需要实现极低延迟的软硬件协同设计来构建完整技术链路。我们通过采用“感算一体”的架构,以实现算力和算法的完美融合,进而能够完成端侧Agent的任务自进化。这是一个系统级的难题,我们已在此方面取得了诸多突破。
DeepTech:为了解决算力问题,我注意到您的研究还涉及光计算等更前沿的方向。光计算与传统电子计算有何本质区别?它解决了什么问题?
程远:最本质的区别在于它们所依赖的载体和物理机制不同。传统电子计算主要依靠电子迁移和晶体管开关,而光计算则更多地利用光的传播、干涉、衍射等过程来完成高并行计算。光计算在算力方面能够带来的性能优势,体现在能效上可提升3到6个数量级,计算速度上同样能获得3个数量级以上的增益。
为何如今大家如此重视光计算?这是因为当前AI对算力的需求增长速度极快,电子体系在能耗和带宽方面正面临越来越大的压力,并且已经显现出明显的AI能源问题。很多时候,问题并非算不出来,而是代价过高。特别是大规模线性计算,如矩阵、张量等计算,恰恰是光计算极具潜力的应用领域。
因此,我对光计算的理解并非是它要取代一切,而是它提供了一种新的高能效计算引擎。
DeepTech:光计算在能效比方面拥有几个数量级的优势,但光电转换过程中的功耗损失和精度衰减一直是业界关注的痛点。您目前选择“加速插件”这一务实的路径,是否意味着在现阶段,光计算仍无法摆脱对电子系统的依赖?在算力需求激增的当下,光计算面临的最紧迫的挑战是什么?
程远:光计算的目标绝非仅仅是作为某些专用计算模块,而是要发展成为可重构、通用化的大规模计算平台。它在信息维度、能耗和计算速度方面具有天然的物理优势,能够带来3到6个数量级的能效提升和延迟降低。当前,光计算受限于器件工艺成熟度、系统鲁棒性等实际问题,因此现阶段最务实的路线是,先利用光计算加速器切入AI中最密集、最耗能的部分,例如矩阵乘法、张量计算和并行推理。这样可以在不颠覆现有体系的前提下,率先释放光计算的优势。
从长远来看,光计算绝不会仅仅依附于电子芯片的加速模块。真正的工程化挑战在于,让计算、通信、存储尽可能都在光域内完成,从而减少甚至摆脱反复的光电转换。光计算的未来并非是补充电子计算,而是在AI时代重构整个计算链路,以数个数量级的能耗优势,解决算力需求爆发与能源消耗之间的根本矛盾。
DeepTech:您认为光计算会与硅基芯片、电子计算长期共存吗?
程远:我的判断会比较务实。中期来看,它们一定会共存。但从长远来看,光计算实际上很有机会发展成为一个更通用的平台,从而大量取代电计算。这是因为光计算在功耗、通量和计算速度方面确实拥有巨大优势。
然而,我们必须承认,其难点也非常明确。并非单个光计算单元拥有很高的处理速度,就能够实现大规模计算,关键在于能否将其构建成一个可编程、可重构、通用化,并能接入现有计算生态的系统。只有将这些系统构建出来,才有可能实现对电子计算的替代。
目前更现实的路径是,在中期,将其作为高性能加速插件介入,优先替代那些更适合它的计算部分,然后通过标准的接口与现有体系兼容。从长远来看,随着器件和电路级别的能力(如光电混合、封装校准、计算鲁棒性等)不断发展,以及整条产业链的逐步成熟,光计算一定能够实现通用大规模落地,并对传统电子计算形成强有力的替代。
因此,这也是我目前推进光计算落地产业化的一种思路。我们并非一开始就推翻所有体系,试图完全取代电计算,而是先从通用的光电加速卡入手,兼容目前已有的处理器架构和形态。
DeepTech:您在2019年就开始创业,当时您还在读博,是什么契机促使您走上了这条道路?
程远:最直接的原因在于,我一直强烈地感受到,如果AI技术不能落地到实际场景中,它的价值就无法得到真正的释放。
我当时的研究方向是AI软硬件协同设计。在做研究的同时,我越来越清晰地认识到,端侧AI在真实世界中面临着一个巨大的“最后一公里”问题。大家都在谈论模型发展的速度有多快,但真正到了机器人、制造业和消费终端,制约系统的往往不是模型的精度,而是时延、功耗、成本和安全性。
所以,创业对我来说,并非是突然改变方向,而是希望将研究中看到的潜在方向,真正地转化为可落地的系统。辛米尔正是在这样的背景下应运而生的。它让我更深入地理解真实场景,也让我更加坚信一个判断:未来决定AI能否走进物理世界的,归根结底还是算力-算法协同设计架构的基础建设。
DeepTech:您既是上交大副教授,又是公司创始人,是如何平衡学术与产业的角色?为何没有选择“all in”一个角色?
程远:这两个角色之间并没有冲突,更多的是相互校正。学术研究会迫使你去思考第一性原理,去展望五年、十年后可能成立的新范式;而产业实践则会迫使你回归现实,去回答它今天能否实现、能否落地、谁会真正为此买单。
我现在所从事的方向,本身就极其需要这两个角色同时在场。如果只专注于学术,容易停留在“看起来很对”的层面;如果只专注于产业,又容易被短期需求所牵制,无法在更底层的架构层面进行突破。我更希望做的是,将前沿研究真正地落实到产业可用,再将产业中最真实的问题提炼回学术界。对我而言,这个闭环是最重要的。
当学术和产业的目标一致时,实际上是“1+1小于2”的效果,因为做相同的工作会产生数倍的成果,根本不存在精力难以分配的问题。
DeepTech:我曾看过您在采访中提到一个关于未来的设想:希望让智能计算像水电一样融入物理世界。您心目中的“万物智能”是什么样的?届时会呈现出何种形态?它将为我们的生活带来哪些更具体、可感知的变化?
程远:我所理解的“万物智能”,并非是随处可见的会聊天的机器,而是各种设备都开始具备即时感知、即时判断、即时行动的能力,并且这一切都发生得非常自然。也就是说,智能不再是一个单独的软件入口,而将如同水电一样,逐渐成为一种基础能力,融入设备、系统和环境中。
更具体地说,未来的具身机器人将不再仅仅执行固定命令,而是能够自主进行本地感知和行动决策;未来的制造设备将不再仅仅按程序运行,而是能够边运行边感知异常、边优化过程;未来的手持设备、智能汽车、智能家居、摄像头、无人机等,也将不再仅仅是被动响应,而是会逐步具备更自然、更低延迟、更低功耗的本地智能交互能力。
许多今天看起来还比较“沉重”的智能能力,需要消耗大量的算力和能源资源,未来都将逐渐转变为默认配置。我认为其背后真正的关键,并非是让每个设备都像一个小型数据中心,而是让它们拥有低功耗、低时延、且能够持续进化的基础算力。
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成