显存优化_标签-酷阅新闻

AI越用越卡？ReFreeKV破解"记忆膨胀"难题

很多人都有过这样的体验：和AI聊天、问难题、写代码时，聊得越久，AI反应越慢，甚至偶尔答非所问、逻辑断层。大部分人以为是网络问题，其实真正的核心原因，藏在AI的“记忆机制”里。AI之所以能给出连贯、贴合上下文的回答，是因为它会全程记住我们的对话内容。在AI技术领域，这种专属“记忆”有个专业名词——KV缓存。大家可以把它简单理解成AI的临时草稿纸。每一次对话、每一句提问，AI都会实时记录在这张草稿纸上，用来支撑后续的回答。但这张看似不起眼的草稿纸，却是拖累AI性能、拉高运行成本的“元凶”！它的显存占用极其夸

2026-07-05 10:47:19 | 13 阅读

国内首个1.58比特端侧大模型开源发布

IT之家5月25日信息，面壁智能携手清华等机构，今日公布并开源其最新低比特大模型成果BitCPM-CANN。据透露，该模型为我国首个完全基于华为昇腾平台端到端训练并开源的三值（1.51-bit）大模型。从量化计算、训练方法到整体框架，BitCPM-CANN均在昇腾平台原生构建，提供0.5B、1B、3B、8B四种规模，与同规模MiniCPM4全精度系列逐一对比测试，表现卓越。相较传统BF16精度，BitCPM-CANN在推理时释放约6倍显存优势，同时保持90%-97.2%模型能力保留率。官方指出，对移

2026-05-25 22:49:40 | 10 阅读

端侧AI新突破：国产技术实现手机运行大模型的高效压缩

一个 8B 参数的大模型，通常需要约 16GB 显存。参数越多，越吃显存，这就是为什么，内存价格一天比一天高。现在，有一种方法，可以省下 6 倍显存，却几乎不损耗模型性能。过去两年，围绕这个看似极端的思路，一条全球性的技术竞赛正在成型。而就在这条赛道上，一个完全基于国产算力的方案，刚刚给出了自己的第一个回答。模型被压到了不到 3B，同时，能力却可以保留 97%，甚至更进一步，如果结合 MoE 架构，未来可以直接在一部 8GB 内存的手机，运行 600 亿参数的大模型。听上去匪夷所思，怎么做到的？

2026-05-25 22:44:42 | 11 阅读