显存_标签-酷阅新闻

AI越用越卡？ReFreeKV破解"记忆膨胀"难题

很多人都有过这样的体验：和AI聊天、问难题、写代码时，聊得越久，AI反应越慢，甚至偶尔答非所问、逻辑断层。大部分人以为是网络问题，其实真正的核心原因，藏在AI的“记忆机制”里。AI之所以能给出连贯、贴合上下文的回答，是因为它会全程记住我们的对话内容。在AI技术领域，这种专属“记忆”有个专业名词——KV缓存。大家可以把它简单理解成AI的临时草稿纸。每一次对话、每一句提问，AI都会实时记录在这张草稿纸上，用来支撑后续的回答。但这张看似不起眼的草稿纸，却是拖累AI性能、拉高运行成本的“元凶”！它的显存占用极其夸

2026-07-05 10:47:19 | 13 阅读

AI模型参数究竟是什么？

哦，这些都属于不同的 AI 工具。7B、14B、70B、671B、MoE、激活参数、上下文窗口、Token、显存、量化、4-bit、8-bit……那么参数数量越多，模型就越智能吗？训练数据质量、训练方式、中文水平、代码水平、推理水平、后期调优、能否调用工具、是否经过量化压缩，以及它是否真正契合你的使用场景。这家公司拥有 700 亿个"能力连接"——相当于700亿个能为你效力的个体。它在每次响应时，基本都由一个 70B 体量的模型在运行。这个模型文件大小为 4GB，因此只要我有 4GB 显存就肯定够用了。

2026-06-30 02:38:14 | 15 阅读

AMD再次调涨显卡售价：市场策略引发玩家流失担忧

快科技6月21日资讯，全球显卡行业即将面临新一轮的价格波动。日本媒体及供应链渠道透露，受GDDR显存芯片供应持续紧张影响，AMD预计最快从7月开始将GPU与显存组合套装的价格提升10%至15%，这已是AMD近半年来第二次因内存成本攀升而采取的涨价措施。这一决策对本身已经面临挑战的AMD显卡业务而言无疑是雪上加霜。今年1月中旬，AMD曾因相同因素调整过一次售价，随后的市场反馈显示销量急剧下滑。彼时正值NVIDIA显卡供给不足、价格上扬之际，众多游戏玩家本计划转向AMD阵营，但AMD涨价后，消费者迅速做出

2026-06-22 12:24:54 | 17 阅读

XR AI全新发布：支持DGX Spark，实现实时多模态交互

运行示例项目本地显存占用全套四大模型服务（model-servers）约70GB独立视觉语言示例（simple-vlm-example）约23GBXR渲染演示工程（依赖全套模型服务）70GB模型显存+2GB中枢及语音合成显存仅运行项目中枢服务无需本地显存软件依赖项指定版本补充说明操作系统Ubuntu 22.04 / 24.04仅推荐两款LTS长期支持版Ubuntu系统Python3.11 / 3.123.10及3.13版本均不兼容，无法正常运行uv依赖管理工具最新稳定版项目所有示例工程统一使用uv管理依赖

2026-06-18 09:10:21 | 17 阅读

国内首个1.58比特端侧大模型开源发布

IT之家5月25日信息，面壁智能携手清华等机构，今日公布并开源其最新低比特大模型成果BitCPM-CANN。据透露，该模型为我国首个完全基于华为昇腾平台端到端训练并开源的三值（1.51-bit）大模型。从量化计算、训练方法到整体框架，BitCPM-CANN均在昇腾平台原生构建，提供0.5B、1B、3B、8B四种规模，与同规模MiniCPM4全精度系列逐一对比测试，表现卓越。相较传统BF16精度，BitCPM-CANN在推理时释放约6倍显存优势，同时保持90%-97.2%模型能力保留率。官方指出，对移

2026-05-25 22:49:40 | 10 阅读

端侧AI新突破：国产技术实现手机运行大模型的高效压缩

一个 8B 参数的大模型，通常需要约 16GB 显存。参数越多，越吃显存，这就是为什么，内存价格一天比一天高。现在，有一种方法，可以省下 6 倍显存，却几乎不损耗模型性能。过去两年，围绕这个看似极端的思路，一条全球性的技术竞赛正在成型。而就在这条赛道上，一个完全基于国产算力的方案，刚刚给出了自己的第一个回答。模型被压到了不到 3B，同时，能力却可以保留 97%，甚至更进一步，如果结合 MoE 架构，未来可以直接在一部 8GB 内存的手机，运行 600 亿参数的大模型。听上去匪夷所思，怎么做到的？

2026-05-25 22:44:42 | 13 阅读

AI计算集群概述

早期大语言模型训练多采用单卡模式，例如2018年时BERT-Large(3.4亿参数)可直接在单卡上完成训练。然而随着模型参数与数据量呈指数增长，单卡训练遇到三个主要限制：1.显存容量限制一个拥有700亿参数的模型，若采用FP16格式存储，仅参数存储就需140GB空间，而单张H100显卡仅有80GB显存。2.计算时间约束大模型训练所需的浮点运算量极为庞大，以GPT-3 1750亿参数为例，单张H100显卡需要约5年才能完成训练。3.数据传输瓶颈大语言模型训练需要处理TB至PB级别的海量语料，但单卡IO

2026-05-12 08:01:38 | 11 阅读

AI训练为何离不开海量显卡

前些天看个视频，有人秀自己用电脑跑AI，显卡风扇狂转跟直升机一样，评论区都在问：你这卡多少钱？非得用显卡？CPU不行吗？这个问题问得很到位。我也曾这么想，直到自己试着跑了个开源模型，才明白搞AI的人为啥成箱成箱地买显卡，跟囤大米一样。先讲个真事。我去年用老电脑试跑一个叫LLaMA的模型，7B参数，算是小版本。配置是i7-8700K，32G内存，一张GTX 1060 6G显卡。结果猜怎么着？跑起来直接卡死，画面定格，鼠标动不了，最后只能按机箱重启。后来换CPU跑，能动了，但生成一句话要等40秒，中间泡了杯茶

2026-05-09 02:14:54 | 16 阅读

KV Cache：大模型推理的“加速器”与“内存条”

您是否好奇，像ChatGPT、DeepSeek这样的大语言模型，为何能逐字生成回应，而不是一次性输出整段文字？实际上，在生成下一个字词前，模型需要重新审视并利用之前已生成的信息。这听起来似乎效率不高，对吧？驱动大模型实现高效推理的关键技术之一，便是我们今天要探讨的主角——KV Cache，其中文含义为“键值缓存”。一、优化思路的必然产物KV Cache并非凭空出现，而是源于Transformer架构的内在特点与实际推理需求的冲突。2017年，Google发布的里程碑式论文《Attention Is All

2026-05-05 14:21:54 | 24 阅读

AI本地模型精选推荐

🚀 每日 AI 本地模型推荐 📅 搜索日期： 2026年5月3日 📊 今日发现： 6 条新模型/更新 ① Google Gemma-4-31B-it-GGUF 🔧 参数规模： 31B 💾 显存占用： 14-33GB（根据压缩级别变化） 💾 适用显卡： RTX 4090 24GB / RTX 3090 24GB 🌟 评级： ⭐⭐⭐⭐⭐ 📄 兼容格式： GGUF (Q4_K_M / Q5_K_M / Q6_K / Q8_0) 📖 介绍： Google最新推出的Gemma 4系列旗舰产品，采用原生多模态设计，视

2026-05-04 09:28:07 | 12 阅读

本地AI工作站崛起：英特尔双芯协同，缓解Token压力

2026年，AI工作站的角色正迎来深层重塑：它不再只是辅助开发的工具，而是在企业侧承载数据安全与效率诉求的“本地AI工厂”。IDC预计，2026年工作站市场出货量将达66万台，同比增长5.2%。为适配不同体量与业务场景，AI工作站形态也在加速分化：一体机方案升温，并进一步延伸到更小巧的“迷你主机”和桌面级工控形态。在大模型与智能体应用持续拉动之下，面向AI工作站的芯片平台又出现了哪些新进展？4月23日，英特尔在北京举行新一代AI工作站平台发布活动。英特尔中国区技术部总经理高宇宣布，针对AI工作站场景，英特

2026-04-27 20:05:35 | 10 阅读

特斯拉狂扫显存！供应量翻四倍仍吃紧，游戏显卡面临涨价缺货潮

根据韩国EDaily媒体的报道，三星电子本月起已着手提升向特斯拉供应的8Gb GDDR6显存产量，该产品将应用于特斯拉的车载娱乐及自动驾驶系统。三星已将特斯拉8Gb GDDR6的交付规模提升至第一季度的四倍水平，但依然未能达到特斯拉最初提出的五倍以上的需求目标。核心问题在于三星的产能规划策略，报道指出三星倾向于避免过度扩张产能以保持较高利润水平，目前已对GDDR6产品线进行优化，仅维持高利润型号的生产。这表明即便面对强劲的市场需求，三星亦无充分释放产能的计划。尽管RTX 50系显卡已升级至GDDR

2026-04-22 20:44:02 | 11 阅读

显卡减产40% 英伟达重心转向AI 游戏玩家心寒

过去三十年，英伟达在大众视野里籍籍无名，除非你是资深玩家。如今AI热潮让这家芯片巨头登顶全球市值之巅，反倒是它曾经的根基——游戏玩家，感到自己正在被逐渐边缘化。伯恩斯坦分析师斯泰西·拉斯贡指出：“游戏业务早已不再是公司的核心增长动力，这一点毋庸置疑。” 正是英伟达普及了图形处理器（GPU），这种芯片带来了高帧率和高效渲染，才成就了极致的游戏体验。 1999年英伟达推出首款GPU——GeForce 256时，公司曾大规模裁员且濒临破产。多亏全球玩家抢购这款新品，才将其从生死边缘拉回。如今AI需求井喷，英

2026-04-19 09:35:12 | 19 阅读