破解算力瓶颈:凌波智芯以“无连接RoCE”重塑AI互联新格局
近日,“溪山对话”栏目专访凌波智芯创始人、天津大学教授李文信与溪山天使汇发起人许晖,深入探讨如何借助底层技术革新突破算力困境。
算力焦虑的本质:非车不足,乃路不畅
2024年,90后天津大学教授、国家级青年人才李文信踏上创业征程。他避开炙手可热的GPU赛道,转而聚焦算力互联的关键——网卡。其主导开发的“无连接RoCE架构”AI网卡,预计于2026年年底启动内部测试。
许多人误认为算力焦虑等同于GPU短缺,以为多购卡、扩规模便能迎刃而解。
李文信用一个生动比喻揭穿这一迷思:“这好比购置了10万辆法拉利,却让它们在高峰时段的城市干道上行驶。道路拥堵,再好的车也难以疾驰。”
大模型时代,GPU间需协同运作。当集群规模从千卡跃升至万卡乃至十万卡,通信节点数量呈指数级激增。同时,MoE已成为大模型主流框架,无论训练或推理,GPU之间都需高频交换数据。网络一旦滞后,便会出现堵塞、丢包、重传等问题,最终GPU即使运算再快,也不得不等待网络传输数据。“一个万卡集群的实际效能会打5-6折,”李文信指出,“相当于每日有4000至5000张GPU卡在空转等待。”
这便是算力焦虑的实质:我们缺少的不是“车”,而是道路不通。而阻碍这条道路的,是InfiniBand协议,国产GPU几乎无法介入。面对困境,多数人选择在现有框架内优化,但李文信另寻出路:重新铺设一条道路。
无连接RoCE:重构算力互联的底层范式
这条新路,名为“无连接RoCE架构”。要理解其独到之处,需先看清现有路径的困局。
InfiniBand采用“全连接”架构:每两个GPU通信前,网卡必须在硬件层面建立专属“连接通道”,并持续维护序列号、窗口大小、重传计时器等复杂状态信息。即使两个GPU已通信无数次,下一次仍需重新执行建连流程。
在HPC时代,通信节点少、确定性高,此路径正确。但在AI时代,集群规模从千卡迈向十万卡,连接数呈指数级膨胀。网卡尚未开始传输数据,便已陷入“建连、保活、查表、销毁”的漩涡,最终800G物理带宽的有效利用率仅约60%。
InfiniBand路线的优势源于连接,其瓶颈也困于连接。
李文信提出的“无连接RoCE”架构打破了这一范式。多个GPU发往同一目的地的数据请求,只需建立一个连接。数据传输与连接状态解绑,网卡不再为每个通信请求维护独立上下文。连接上下文硬件开销降低90%,并发数据通讯请求提升5倍,重传时延降低96%。
基于此架构,凌波智芯即将推出的400G AI网卡性能测试已展现强劲实力:All-Reduce时间缩短59%,网卡吞吐量提升63%,重传时延降低96%,组网成本降低80%。
“我们让用户以RoCE的成本,获得同等的体验,”李文信表示,“同时为客户预留了未来十万卡规模的扩展能力。”
溪山的另类投资哲学:做颠覆性技术的“耐心资本”
创业初期,李文信团队曾用FPGA打造第一版100G AI网卡。但完成后他却陷入迷茫:“这不又回到老路了吗?”于是团队暂停,重新追问算力互联的真正瓶颈。正是这一灵魂拷问,催生了无连接RoCE架构。
溪山天使汇发起人许晖作为凌波智芯最早的投资人,全程见证了这段探索历程。
溪山在创投圈独树一帜:它不对外募资、不收管理费、不签对赌协议。许晖的“三不投”原则更反常规:不投Pre-IPO,不投明星投资人扎堆挤份额的,不投已盈利或号称明日即盈利的项目。这套打法背后是一个深刻洞察:中国已迈入硬科技创新深水区。真正改变格局的颠覆性技术,会诞生在多数人看不懂、看不清、看不上的领域。
溪山的使命,就是发掘这些“非共识的创新者”,然后以足够的耐心和资源,陪伴他们走过从0到1最艰难的阶段。
李文信身上恰好具备溪山所追寻的科学家创业者“黄金三定律”特质:
心之所向——突破国产算力互联瓶颈,多次打破自身天花板,只为追求更高目标、更落地的应用实现;
身之所往——本硕博乃至天津大学的教授经历,深耕RDMA领域十余年,拥有30多项专利和学术顶刊成果,包括在华为2012研究院的研发经验,技术积累深厚;
命之所在——作为90后新生代科学家,面对新兴科技算力互联赛道,“他不做谁做?”
非共识的胜利:伟大创新始于无人相信
令人振奋的是,凌波智芯的技术路线与全球前沿趋势不谋而合。由Meta、微软、AMD等发起的超级以太网联盟(UEC),也提出了“无连接”的协议设计思路。但凌波智芯的方案更务实:不推翻重来,仅改动网卡,对上层应用无感,对下层交换机兼容——客户插入网卡,即可使用。
李文信的“无连接RoCE”架构,本质上是一场算力互联的范式革命。它不是在某一环节上优化,而是从底层逻辑重新定义了网卡的工作方式、连接的管理模式与可靠性的边界。
大风起于青萍之末,这种颠覆式创新,需要创始人对技术方向的深刻洞察和长期技术沉淀,需要团队在无人区摸索的勇气,更需要投资人给予充分的耐心和时间。今日,世界模型、十万亿参数LLM等下一代AI技术已呼之欲出,十万卡规模算力集群的需求日益迫切,随着超级以太网联盟等国际力量开始朝同一方向发力,李文信当年的“非共识”正转变为“新共识”。
这恰是所有颠覆性技术的必经之路:在早期,它是孤独的、不被认可的。但一旦被验证,那些曾质疑的人会发现——路已被人走出,旗帜已插在那里。
李文信说:“中国科学家,也能在AI算力互联最前沿的领域,插一面自己的旗。”
这是一个90后科学家的雄心,也是新一代中国科创家的时代答卷。他们不再问“别人做没做过”,而是问“这件事该不该做”。

