128TB内存!这家初创公司如何破解AI服务器的内存墙困局

发布时间：2026-06-04 15:12阅读：40

点击蓝字关注我们

SUBSCRIBEto US

Majestic Labs

内存瓶颈是当前大语言模型（LLM）发展面临的最严峻挑战。权威研究表明，大模型输出文本属于典型的内存密集型任务，模型生成速度受制于内存读取带宽，且随着参数规模扩大而愈发严重，这种内存墙问题严重制约着大模型推理效率（https://arxiv.org/pdf/2403.14123）。

AI硬件初创公司Majestic Labs祭出一套系统性解决方案，自主研发名为Prometheus的AI服务器，单机最大支持128TB内存，是英伟达旗舰AI平台DGX B300存储容量的60余倍。

公司联合创始人兼总裁Sha Rabii表示，超大规模内存配置将成为产品的核心竞争优势。他既肯定"英伟达在横向扩展集群架构上成就斐然"，但同时指出：随着大模型规模持续膨胀，该方案的成本效益不断下降，最终导致算力冗余、内存不足的资源失衡困境。

针对大模型内存需求：以DRAM为基础的硬件体系

Majestic Labs试图凭借与竞争对手截然不同的架构设计，打破"内存墙"桎梏。

英伟达现有服务器采用高速高带宽内存（HBM），主要用于加载大模型权重；另配备容量更大、速度相对较慢的DRAM内存池，支撑大模型运行及系统各类开销。而Majestic Labs则全程采用DRAM（具体为LPDDR6），构建统一一体化架构。

Rabii指出，大多数内存接口的设计通信距离极短，通常仅数毫米，严重限制了可挂载内存的总量。"HBM只能部署在计算芯片周围有限区域，这片区域如同海岸线，空间耗尽便无法再增加HBM。"

为此，Majestic Labs自主研发专用内存接口，采用微型铜线布线技术，有效传输距离延伸至1米；配合定制内存聚合芯片，芯片紧贴内存模组放置，统一调度整台服务器的全部内存资源。

Rabii介绍："该芯片作为高速接口枢纽，向下扩展连接海量标准DRAM芯片。"厂商宣称，该方案除支持超大容量内存池外，内存带宽峰值可达每秒25.6TB。

用于大模型加速的Ignite人工智能芯片

内存扩展固然关键，但仍需配备对标英伟达GPU的AI加速算力。Majestic Labs自主研发Ignite专用AI芯片作为整机算力引擎，Prometheus服务器每台配备12颗Ignite芯片。

Ignite在单颗芯片上集成数据中心级ARM应用核与RISC-V向量、张量运算核，所有核心共享统一内存地址空间。其中ARM核心担任片上控制器，负责大模型调度管理；RISC-V核心承担大语言模型实际运算工作。该架构可在单芯片内一站式完成大模型推理全流程，无需跨芯片数据中转。目前该公司尚未公布Prometheus服务器的具体算力指标。

Rabii坦言，现有主流AI框架生态已相当成熟完善，配套软件优化同样举足轻重。他表示："从硬件部署到软件适配，我们正全方位降低客户的落地使用门槛。"Prometheus服务器原生支持PyTorch、vLLM及OpenAI的Triton推理框架，用户无需改动原有代码，基于上述框架开发的现有模型可直接部署运行。

Prometheus服务器架构与定价策略

整机架构遵循开放计算项目（OCP）标准，一个标准机柜最多可部署四台服务器，整柜功耗上限120千瓦，采用冷板式液冷方案散热。整机内存采用模块化设计，出厂未选配满配128TB内存的机型，后续可按需扩容升级。

尽管这款产品研发投入覆盖面广，Majestic Labs仍打算凭借定价优势打造Prometheus的市场竞争力；考虑到单机超大内存配置，这一点出乎不少人的意料。厂商表示，改用标准DRAM替代昂贵HBM显存是成本可控的核心因素。Prometheus预计2027年正式出货，具体售价暂未公布。

Rabii称："根据实际业务负载差异，客户的硬件采购成本能够降至原有方案的1/10-1/50，整机功耗降幅也处于同一量级。"

← 上一篇：AI时代品牌获客新法则：如何让AI主动成为你的免费推广员下一篇：AI Agent黎明将至，CPU重掌计算中枢 →