128TB内存!这家初创公司如何破解AI服务器的内存墙困局
点击蓝字 关注我们
SUBSCRIBEto US
Majestic Labs
内存瓶颈是当前大语言模型(LLM)发展面临的最严峻挑战。权威研究表明,大模型输出文本属于典型的内存密集型任务,模型生成速度受制于内存读取带宽,且随着参数规模扩大而愈发严重,这种内存墙问题严重制约着大模型推理效率(https://arxiv.org/pdf/2403.14123)。
AI硬件初创公司Majestic Labs祭出一套系统性解决方案,自主研发名为Prometheus的AI服务器,单机最大支持128TB内存,是英伟达旗舰AI平台DGX B300存储容量的60余倍。
公司联合创始人兼总裁Sha Rabii表示,超大规模内存配置将成为产品的核心竞争优势。他既肯定"英伟达在横向扩展集群架构上成就斐然",但同时指出:随着大模型规模持续膨胀,该方案的成本效益不断下降,最终导致算力冗余、内存不足的资源失衡困境。
针对大模型内存需求:以DRAM为基础的硬件体系
Majestic Labs试图凭借与竞争对手截然不同的架构设计,打破"内存墙"桎梏。
英伟达现有服务器采用高速高带宽内存(HBM),主要用于加载大模型权重;另配备容量更大、速度相对较慢的DRAM内存池,支撑大模型运行及系统各类开销。而Majestic Labs则全程采用DRAM(具体为LPDDR6),构建统一一体化架构。
Rabii指出,大多数内存接口的设计通信距离极短,通常仅数毫米,严重限制了可挂载内存的总量。"HBM只能部署在计算芯片周围有限区域,这片区域如同海岸线,空间耗尽便无法再增加HBM。"
为此,Majestic Labs自主研发专用内存接口,采用微型铜线布线技术,有效传输距离延伸至1米;配合定制内存聚合芯片,芯片紧贴内存模组放置,统一调度整台服务器的全部内存资源。
Rabii介绍:"该芯片作为高速接口枢纽,向下扩展连接海量标准DRAM芯片。"厂商宣称,该方案除支持超大容量内存池外,内存带宽峰值可达每秒25.6TB。
用于大模型加速的Ignite人工智能芯片
内存扩展固然关键,但仍需配备对标英伟达GPU的AI加速算力。Majestic Labs自主研发Ignite专用AI芯片作为整机算力引擎,Prometheus服务器每台配备12颗Ignite芯片。
Ignite在单颗芯片上集成数据中心级ARM应用核与RISC-V向量、张量运算核,所有核心共享统一内存地址空间。其中ARM核心担任片上控制器,负责大模型调度管理;RISC-V核心承担大语言模型实际运算工作。该架构可在单芯片内一站式完成大模型推理全流程,无需跨芯片数据中转。目前该公司尚未公布Prometheus服务器的具体算力指标。
Rabii坦言,现有主流AI框架生态已相当成熟完善,配套软件优化同样举足轻重。他表示:"从硬件部署到软件适配,我们正全方位降低客户的落地使用门槛。"Prometheus服务器原生支持PyTorch、vLLM及OpenAI的Triton推理框架,用户无需改动原有代码,基于上述框架开发的现有模型可直接部署运行。
Prometheus服务器架构与定价策略
整机架构遵循开放计算项目(OCP)标准,一个标准机柜最多可部署四台服务器,整柜功耗上限120千瓦,采用冷板式液冷方案散热。整机内存采用模块化设计,出厂未选配满配128TB内存的机型,后续可按需扩容升级。
尽管这款产品研发投入覆盖面广,Majestic Labs仍打算凭借定价优势打造Prometheus的市场竞争力;考虑到单机超大内存配置,这一点出乎不少人的意料。厂商表示,改用标准DRAM替代昂贵HBM显存是成本可控的核心因素。Prometheus预计2027年正式出货,具体售价暂未公布。
Rabii称:"根据实际业务负载差异,客户的硬件采购成本能够降至原有方案的1/10-1/50,整机功耗降幅也处于同一量级。"