标签

128TB内存!这家初创公司如何破解AI服务器的内存墙困局

点击蓝字 关注我们SUBSCRIBEto USMajestic Labs内存瓶颈是当前大语言模型(LLM)发展面临的最严峻挑战。权威研究表明,大模型输出文本属于典型的内存密集型任务,模型生成速度受制于内存读取带宽,且随着参数规模扩大而愈发严重,这种内存墙问题严重制约着大模型推理效率(https://arxiv.org/pdf/2403.14123)。AI硬件初创公司Majestic Labs祭出一套系统性解决方案,自主研发名为Prometheus的AI服务器,单机最大支持128TB内存,是英伟达旗舰AI平

2026-06-04 15:12:49  |  0 阅读

破解 AI 应用难题,华为数据平台助推行业智能体实战

近期,于 2026 GDCT 数据中心市场年会现场,华为数据存储产品线 AI 存储产品管理专家段芳成应邀出席并发表主旨演讲,深入剖析了华为 AI 数据平台如何精准攻克 AI 智能体在落地实践中面临的知识处理、推理效能、记忆管控及数据安全这四大关键瓶颈。华为数据存储产品线 AI 存储产品管理专家段芳成|AI 迈入智能体应用新阶段,数据基础设施迎来范式重塑当前,AI 智能体正从概念验证阶段走向规模化部署,深度嵌入各类行业业务流,成为企业降本增效与数字化转型的核心引擎。段芳成指出,智能体正在推动数据类型与处理模

2026-06-01 17:48:12  |  5 阅读

AI日报速递|5月30日|OpenAI进军实时翻译,专用模型成新趋势

各位好,欢迎来到StarAI资讯站。今日AI圈相当精彩,OpenAI放出了大招,直接切入实时翻译领域。与此同时,国内这边,阶跃星辰也开源了一款性价比超高的Agent模型。接下来我们逐一了解。先快速浏览一下今日要点。第一,OpenAI推出了实时翻译模型,支持70种语言输入,翻译成13种输出语言。我认为这个信号比产品本身更值得关注,因为OpenAI正在走专用模型路线。第二,阶跃星辰开源了Step 3.7 Flash模型,近2000亿参数,但实际只激活110亿。在Agent评测中位居榜首,还能在Mac上本地运行

2026-05-31 08:36:31  |  21 阅读

大模型对决的新规则

最近在刷科技资讯时,我的体感越来越明显:AI大模型的打法,确实在悄悄换轨。以前大家拼的通常是两件事——谁家的参数更大、谁家的榜单分数更高。可翻看这周的更新就不一样了:OpenAI直接把最新模型免费放出来,腾讯的大模型两周就翻了10倍;谷歌则开始在开源模型的推理速度上发力;月之暗面连硬件相关的商标都在申请。放在一起看,我更愿意把它理解为:规则在变,赛道也在重排位置。就在5月6日凌晨(我看到消息时差点睡过去),OpenAI甩出一记深水炸弹:GPT-5.5 Instant正式上线,不仅直接顶替GPT-5.3当作

2026-05-09 04:17:42  |  4 阅读
壁仞科技午盘涨超5% 深度求索V4完成壁砺166适配优化验证

壁仞科技午盘涨超5% 深度求索V4完成壁砺166适配优化验证

扎根香港,面向全球。新浪财经全球资本峰会金曜奖投票现已启动!聚焦最具价值的资本力量,你的每一票都很关键 立即参与投票 壁仞科技(06082)午间股价上涨超过5%。截至发稿,股价涨幅为5.02%,报47.26港元,成交额达到1.63亿港元。 近期,壁仞科技官方消息称,深度求索团队发布了全新系列模型DeepSeek-V4的预览版本,并同步开源。依托成熟的BIRENSUPA™软件栈,以及自研GPU全栈智能体“AIModelMaster”,壁仞科技已快速完成DeepSeek-V4在旗舰通用GPU壁砺™166系列产

2026-04-28 15:03:10  |  6 阅读

硅基流动构建Token工厂,推动AI能力普及化

随着人工智能技术的深度渗透和AI Agent的大规模爆发,算力、模型与应用之间的连接模式正在经历根本性转变。Token(词元)作为衔接技术供给与商业需求的核心“计量单位”,其重要性日益凸显。数据显示,截至2026年3月,国内日均Token调用规模已突破140万亿大关,较2024年初激增超千倍,充分印证了AI产业正迈入以推理和应用为主导的高速扩张期。 在这一趋势下,AI基础设施的战略地位愈发凸显。作为行业创新的先锋力量,硅基流动精准定位“Token工厂”战略,致力于重塑AI服务的价值创造与分配体系。近期,该

2026-04-13 14:50:30  |  4 阅读

破解AI Agent部署难题,全栈安全新架构登场!

AI智能体发展迎来关键转折点!从底层算力优化到企业级安全加固,全栈技术方案正在重塑AI Agent落地基准。TensorRT-LLM极致释放推理潜能,AI-Q Blueprint打通模型到智能体的架构鸿沟,NemoClaw开创企业级安全新纪元——三大核心引擎协同发力,让Agent从演示走向生产。4月28日15:00-16:00,诚邀您参与NVIDIA AI Agent全栈技术深度解读。立即扫码,免费锁定直播席位:扫码免费预约活动详情:

2026-04-10 19:23:43  |  6 阅读
智谱GLM-5.1首发登陆华为云 昇腾平台实现Layer级MOE均衡优化

智谱GLM-5.1首发登陆华为云 昇腾平台实现Layer级MOE均衡优化

IT之家 4 月 8 日消息,智谱今日正式推出新一代旗舰大模型 GLM-5.1。华为方面宣布,智谱 GLM-5.1“Day0”已同步上线华为云。 据悉,智谱 GLM-5.1 在昇腾算力平台上完成了 Layer 级 MOE 的绝对均衡。借助框架层面的能力优化,实现专家更加均衡地产出 Token;同时结合昇腾 Attention 算子的特性,通过推理框架与硬件协同的专项优化,进一步增强算力分配均衡与 HBM 访存均衡能力。华为云则依托系统级优化实现推理提速,整体吞吐提高 30%。 目前,华为云 MaaS 模型

2026-04-09 10:59:50  |  6 阅读