标签

AI训练为何离不开海量显卡

发布时间:2026-05-09 02:14来源:微信阅读:4

前些天看个视频,有人秀自己用电脑跑AI,显卡风扇狂转跟直升机一样,评论区都在问:你这卡多少钱?非得用显卡?CPU不行吗?

这个问题问得很到位。我也曾这么想,直到自己试着跑了个开源模型,才明白搞AI的人为啥成箱成箱地买显卡,跟囤大米一样。

先讲个真事。我去年用老电脑试跑一个叫LLaMA的模型,7B参数,算是小版本。配置是i7-8700K,32G内存,一张GTX 1060 6G显卡。结果猜怎么着?跑起来直接卡死,画面定格,鼠标动不了,最后只能按机箱重启。后来换CPU跑,能动了,但生成一句话要等40秒,中间泡了杯茶,回来它刚打完第一个句号。

问题出在哪?CPU和显卡的工作方式完全不同。

CPU就像个大厨,啥菜都会,但一次只能炒一个。显卡像一千个小工,只会切土豆丝,但一千人一起切,一秒切一堆。AI训练本质是把大数学题拆成无数简单加减乘除,让几万个小工同时算。CPU这种大厨干这活,等于让米其林大厨去切两万斤土豆,不仅慢还浪费。

再说内存。普通电脑32G听不少,但像样的AI模型,参数文件动辄几十G上百G。比如GPT-3有1750亿参数,光存进显存就要至少350G。普通显卡显存多少?RTX 4090顶配也就24G。所以搞AI的只能把模型拆碎片,分到不同显卡协同工作。一块卡装不下,就两块、四块、八块,甚至上千块。

我朋友搞AI创业,公司租了16张A100显卡,80G显存,一张卡市价十万左右。16张就是一百六十万。问他心疼吗?他说心疼,但没这些卡模型跑不动。他试过用8张卡训130亿参数模型,跑一次要三天,中间只要一张卡温度过高降频,整个训练得重来。后来换16张,时间缩到一天半,温度更稳,因为每张卡分摊算力少了。

你可能觉得,那为啥不用云服务按小时租?确实可以,但训中型模型,用云端显卡跑,费用大概几十万到几百万人民币。OpenAI训GPT-4,据估算用上万张显卡,跑几个月,电费加硬件折旧,烧掉的钱够买好几架私人飞机。

还有更坑的事,叫显存溢出。我上次试跑Stable Diffusion模型,就是那个画图的AI。显卡是RTX 3080,显存10G,按理说够用。结果跑一张1024x1024图,到一半报错:CUDA out of memory。显存满了。后来把batch size调成1,一次只算一张图,勉强跑动,但慢得像蜗牛。那些能一次生成几十张图的大佬,背后都是插好几张显卡,每张卡分几个批次同时算。

有人说,那搞AI的为啥不用专门的AI芯片,比如谷歌TPU?答案是贵且不通用。TPU像专门给特斯拉修的充电桩,别的车充不了。显卡像公共充电站,啥车都能充,技术生态成熟,各种框架支持。所以即便显卡不是最完美方案,也是目前最现实的。

我认识个做AI训练的哥们,电脑桌旁常年摆个工业风扇,对着机箱吹。他说四张RTX 3090跑起来,机箱温度85度,房间跟蒸桑拿一样。冬天暖和,夏天只能光膀子。有一次忘了开风扇,一张显卡直接烧了,表情比失恋还痛苦。

说到底,AI训练需要那么多显卡,就是现在AI模型太大太笨。它不像人脑能举一反三,只能靠海量数据硬算。你给它看一亿张猫照片,它才能勉强认出一只猫。学习过程就是反复做数学题,算错就调参,再算再调,直到算对。每一轮调整,显卡都在拼命算几十亿次乘法。没有几十上百张显卡,等你算完,黄花菜都凉了。

所以下次看到AI公司晒显卡墙,别觉得炫富。那是真的被逼无奈,就像建筑工地必须用挖掘机,不能指望人拿勺子挖。显卡就是AI世界的挖掘机,越多越好,越快越好,哪怕贵,也得咬牙上。

至于我们普通人,用现成AI工具就行。跑模型的苦活,让那些显卡去扛吧。

同步自猫哥的机器日志 ai.hkras.com 😼