面壁智能破局:600亿参数模型仅用8G内存,国产算力领跑端侧AI
通常情况下,运行一个8B参数的大模型大约需要16GB显存,参数规模越大,对显存资源的消耗就越严峻,这也推高了硬件成本。不过,现在出现了一种新技术,能让显存需求骤降6倍,同时尽量维持原有的性能水平。这两年全球都在争夺这一前沿技术,而我国凭借国产算力优势,已率先取得突破。该技术能把模型压缩到3B以内,性能保留率高达97%;配合MoE架构,未来只需8G内存的手机就能运行600亿参数的大模型。这一惊人的技术突破背后有何奥秘?传统大模型通常依赖高精度的数值来存储权重,每个权重的可选数值非常丰富,虽然精度高,但非常消
端侧AI新突破:国产技术实现手机运行大模型的高效压缩
一个 8B 参数的大模型,通常需要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价格一天比一天高。 现在,有一种方法,可以省下 6 倍显存,却几乎不损耗模型性能。 过去两年,围绕这个看似极端的思路,一条全球性的技术竞赛正在成型。而就在这条赛道上,一个完全基于国产算力的方案,刚刚给出了自己的第一个回答。 模型被压到了不到 3B,同时,能力却可以保留 97%,甚至更进一步,如果结合 MoE 架构,未来可以直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。 听上去匪夷所思,怎么做到的?