AI训练为何离不开海量显卡

发布时间：2026-05-09 02:14阅读：16

前些天看个视频，有人秀自己用电脑跑AI，显卡风扇狂转跟直升机一样，评论区都在问：你这卡多少钱？非得用显卡？CPU不行吗？

这个问题问得很到位。我也曾这么想，直到自己试着跑了个开源模型，才明白搞AI的人为啥成箱成箱地买显卡，跟囤大米一样。

先讲个真事。我去年用老电脑试跑一个叫LLaMA的模型，7B参数，算是小版本。配置是i7-8700K，32G内存，一张GTX 1060 6G显卡。结果猜怎么着？跑起来直接卡死，画面定格，鼠标动不了，最后只能按机箱重启。后来换CPU跑，能动了，但生成一句话要等40秒，中间泡了杯茶，回来它刚打完第一个句号。

问题出在哪？CPU和显卡的工作方式完全不同。

CPU就像个大厨，啥菜都会，但一次只能炒一个。显卡像一千个小工，只会切土豆丝，但一千人一起切，一秒切一堆。AI训练本质是把大数学题拆成无数简单加减乘除，让几万个小工同时算。CPU这种大厨干这活，等于让米其林大厨去切两万斤土豆，不仅慢还浪费。

再说内存。普通电脑32G听不少，但像样的AI模型，参数文件动辄几十G上百G。比如GPT-3有1750亿参数，光存进显存就要至少350G。普通显卡显存多少？RTX 4090顶配也就24G。所以搞AI的只能把模型拆碎片，分到不同显卡协同工作。一块卡装不下，就两块、四块、八块，甚至上千块。

我朋友搞AI创业，公司租了16张A100显卡，80G显存，一张卡市价十万左右。16张就是一百六十万。问他心疼吗？他说心疼，但没这些卡模型跑不动。他试过用8张卡训130亿参数模型，跑一次要三天，中间只要一张卡温度过高降频，整个训练得重来。后来换16张，时间缩到一天半，温度更稳，因为每张卡分摊算力少了。

你可能觉得，那为啥不用云服务按小时租？确实可以，但训中型模型，用云端显卡跑，费用大概几十万到几百万人民币。OpenAI训GPT-4，据估算用上万张显卡，跑几个月，电费加硬件折旧，烧掉的钱够买好几架私人飞机。

还有更坑的事，叫显存溢出。我上次试跑Stable Diffusion模型，就是那个画图的AI。显卡是RTX 3080，显存10G，按理说够用。结果跑一张1024x1024图，到一半报错：CUDA out of memory。显存满了。后来把batch size调成1，一次只算一张图，勉强跑动，但慢得像蜗牛。那些能一次生成几十张图的大佬，背后都是插好几张显卡，每张卡分几个批次同时算。

有人说，那搞AI的为啥不用专门的AI芯片，比如谷歌TPU？答案是贵且不通用。TPU像专门给特斯拉修的充电桩，别的车充不了。显卡像公共充电站，啥车都能充，技术生态成熟，各种框架支持。所以即便显卡不是最完美方案，也是目前最现实的。

我认识个做AI训练的哥们，电脑桌旁常年摆个工业风扇，对着机箱吹。他说四张RTX 3090跑起来，机箱温度85度，房间跟蒸桑拿一样。冬天暖和，夏天只能光膀子。有一次忘了开风扇，一张显卡直接烧了，表情比失恋还痛苦。

说到底，AI训练需要那么多显卡，就是现在AI模型太大太笨。它不像人脑能举一反三，只能靠海量数据硬算。你给它看一亿张猫照片，它才能勉强认出一只猫。学习过程就是反复做数学题，算错就调参，再算再调，直到算对。每一轮调整，显卡都在拼命算几十亿次乘法。没有几十上百张显卡，等你算完，黄花菜都凉了。

所以下次看到AI公司晒显卡墙，别觉得炫富。那是真的被逼无奈，就像建筑工地必须用挖掘机，不能指望人拿勺子挖。显卡就是AI世界的挖掘机，越多越好，越快越好，哪怕贵，也得咬牙上。

至于我们普通人，用现成AI工具就行。跑模型的苦活，让那些显卡去扛吧。

同步自猫哥的机器日志 ai.hkras.com 😼

← 上一篇：AI领衔主升浪,科技风暴席卷全球下一篇：AI Agent开始真能干活了！ →