标签
国内首个1.58比特端侧大模型开源发布

国内首个1.58比特端侧大模型开源发布

IT之家5月25日信息,面壁智能携手清华等机构,今日公布并开源其最新低比特大模型成果BitCPM-CANN。 据透露,该模型为我国首个完全基于华为昇腾平台端到端训练并开源的三值(1.51-bit)大模型。从量化计算、训练方法到整体框架,BitCPM-CANN均在昇腾平台原生构建,提供0.5B、1B、3B、8B四种规模,与同规模MiniCPM4全精度系列逐一对比测试,表现卓越。 相较传统BF16精度,BitCPM-CANN在推理时释放约6倍显存优势,同时保持90%-97.2%模型能力保留率。 官方指出,对移

2026-05-25 22:49:40  |  3 阅读
端侧AI新突破:国产技术实现手机运行大模型的高效压缩

端侧AI新突破:国产技术实现手机运行大模型的高效压缩

一个 8B 参数的大模型,通常需要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价格一天比一天高。 现在,有一种方法,可以省下 6 倍显存,却几乎不损耗模型性能。 过去两年,围绕这个看似极端的思路,一条全球性的技术竞赛正在成型。而就在这条赛道上,一个完全基于国产算力的方案,刚刚给出了自己的第一个回答。 模型被压到了不到 3B,同时,能力却可以保留 97%,甚至更进一步,如果结合 MoE 架构,未来可以直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。 听上去匪夷所思,怎么做到的?

2026-05-25 22:44:42  |  4 阅读

AI计算集群概述

早期大语言模型训练多采用单卡模式,例如2018年时BERT-Large(3.4亿参数)可直接在单卡上完成训练。然而随着模型参数与数据量呈指数增长,单卡训练遇到三个主要限制:1.显存容量限制一个拥有700亿参数的模型,若采用FP16格式存储,仅参数存储就需140GB空间,而单张H100显卡仅有80GB显存。2.计算时间约束 大模型训练所需的浮点运算量极为庞大,以GPT-3 1750亿参数为例,单张H100显卡需要约5年才能完成训练。3.数据传输瓶颈 大语言模型训练需要处理TB至PB级别的海量语料,但单卡IO

2026-05-12 08:01:38  |  5 阅读

AI训练为何离不开海量显卡

前些天看个视频,有人秀自己用电脑跑AI,显卡风扇狂转跟直升机一样,评论区都在问:你这卡多少钱?非得用显卡?CPU不行吗?这个问题问得很到位。我也曾这么想,直到自己试着跑了个开源模型,才明白搞AI的人为啥成箱成箱地买显卡,跟囤大米一样。先讲个真事。我去年用老电脑试跑一个叫LLaMA的模型,7B参数,算是小版本。配置是i7-8700K,32G内存,一张GTX 1060 6G显卡。结果猜怎么着?跑起来直接卡死,画面定格,鼠标动不了,最后只能按机箱重启。后来换CPU跑,能动了,但生成一句话要等40秒,中间泡了杯茶

2026-05-09 02:14:54  |  3 阅读

KV Cache:大模型推理的“加速器”与“内存条”

您是否好奇,像ChatGPT、DeepSeek这样的大语言模型,为何能逐字生成回应,而不是一次性输出整段文字?实际上,在生成下一个字词前,模型需要重新审视并利用之前已生成的信息。这听起来似乎效率不高,对吧?驱动大模型实现高效推理的关键技术之一,便是我们今天要探讨的主角——KV Cache,其中文含义为“键值缓存”。一、优化思路的必然产物KV Cache并非凭空出现,而是源于Transformer架构的内在特点与实际推理需求的冲突。2017年,Google发布的里程碑式论文《Attention Is All

2026-05-05 14:21:54  |  6 阅读

AI本地模型精选推荐

🚀 每日 AI 本地模型推荐 📅 搜索日期: 2026年5月3日 📊 今日发现: 6 条新模型/更新 ① Google Gemma-4-31B-it-GGUF 🔧 参数规模: 31B 💾 显存占用: 14-33GB(根据压缩级别变化) 💾 适用显卡: RTX 4090 24GB / RTX 3090 24GB 🌟 评级: ⭐⭐⭐⭐⭐ 📄 兼容格式: GGUF (Q4_K_M / Q5_K_M / Q6_K / Q8_0) 📖 介绍: Google最新推出的Gemma 4系列旗舰产品,采用原生多模态设计,视

2026-05-04 09:28:07  |  7 阅读

本地AI工作站崛起:英特尔双芯协同,缓解Token压力

2026年,AI工作站的角色正迎来深层重塑:它不再只是辅助开发的工具,而是在企业侧承载数据安全与效率诉求的“本地AI工厂”。IDC预计,2026年工作站市场出货量将达66万台,同比增长5.2%。为适配不同体量与业务场景,AI工作站形态也在加速分化:一体机方案升温,并进一步延伸到更小巧的“迷你主机”和桌面级工控形态。在大模型与智能体应用持续拉动之下,面向AI工作站的芯片平台又出现了哪些新进展?4月23日,英特尔在北京举行新一代AI工作站平台发布活动。英特尔中国区技术部总经理高宇宣布,针对AI工作站场景,英特

2026-04-27 20:05:35  |  4 阅读
特斯拉狂扫显存!供应量翻四倍仍吃紧,游戏显卡面临涨价缺货潮

特斯拉狂扫显存!供应量翻四倍仍吃紧,游戏显卡面临涨价缺货潮

根据韩国EDaily媒体的报道,三星电子本月起已着手提升向特斯拉供应的8Gb GDDR6显存产量,该产品将应用于特斯拉的车载娱乐及自动驾驶系统。 三星已将特斯拉8Gb GDDR6的交付规模提升至第一季度的四倍水平,但依然未能达到特斯拉最初提出的五倍以上的需求目标。 核心问题在于三星的产能规划策略,报道指出三星倾向于避免过度扩张产能以保持较高利润水平,目前已对GDDR6产品线进行优化,仅维持高利润型号的生产。 这表明即便面对强劲的市场需求,三星亦无充分释放产能的计划。 尽管RTX 50系显卡已升级至GDDR

2026-04-22 20:44:02  |  4 阅读

显卡减产40% 英伟达重心转向AI 游戏玩家心寒

过去三十年,英伟达在大众视野里籍籍无名,除非你是资深玩家。如今AI热潮让这家芯片巨头登顶全球市值之巅,反倒是它曾经的根基——游戏玩家,感到自己正在被逐渐边缘化。 伯恩斯坦分析师斯泰西·拉斯贡指出:“游戏业务早已不再是公司的核心增长动力,这一点毋庸置疑。” 正是英伟达普及了图形处理器(GPU),这种芯片带来了高帧率和高效渲染,才成就了极致的游戏体验。 1999年英伟达推出首款GPU——GeForce 256时,公司曾大规模裁员且濒临破产。多亏全球玩家抢购这款新品,才将其从生死边缘拉回。 如今AI需求井喷,英

2026-04-19 09:35:12  |  7 阅读