5秒AI视频耗电等同10台手机?实测揭秘真相
6月26日上午,国务院新闻办发布会。
国家能源局局长王宏志顺口提及的一个案例,让在场不少人惊诧不已——
“每让人工智能生成5秒高清视频,用电量相当于充满10部手机。”
这番言论迅速在网络上引发热议。有人觉得太离谱:我手机充满电能刷一整天短视频,AI怎么生成5秒就“吃”掉10部手机的电量?
好奇心被勾起来了。我们借助Kimi进行了一番推算,看看局长这番话,究竟站不站得住脚。
一、10部手机,究竟有多少电?
先来确定基准线。
目前主流智能手机的电池容量,基本处于4000至5000毫安时范围。按照3.7伏的标准电压来折算,充满一次大约消耗0.015到0.02度电。Hugging Face与卡内基梅隆大学合作进行过估算,得出了一个行业平均数值:约0.022度电(22瓦时)。
那么10部手机全部充满,也就是:
0.22度电
这便是局长那番话里的“参照标准”。0.22度电意味着什么?差不多是一台1.5匹空调运行20分钟的耗电量,或者一台常规冰箱工作两三个小时的用电量。
核心疑问出现了:AI生成5秒视频,果真需要耗费这么多电吗?
二、实测十余款模型,差异大到惊人
AI视频生成并非单一操作,不同模型之间的耗电量差距可达数千倍。
最节能的:轻量化开源模型
例如AnimateDiff这类轻量级模型,在本地运行一段低分辨率测试,单次耗电仅为0.14瓦时——连半部手机都充不满。在这种情形下,局长的说法确实显得“夸张”了。
但问题在于,大众日常使用的,压根不是这类轻量模型。
最费电的:大规模商用模型
当你打开Sora、Runway Gen-4、可灵,亦或国内各大厂商的AI视频生成工具,输入一段提示词,等待系统产出一段720p乃至1080p的5秒高清视频时,背后调用的是参数达数十亿甚至上百亿的大型扩散模型。
Hugging Face的研究表明,视频扩散生成的能耗相较于图像生成高出约30倍,比文本生成高出约2000倍。
更核心的是,能耗与分辨率呈现二次方递增。从480p升至720p,耗电量可能飙升4至7倍;升至1080p,还要再翻一倍。加上数据中心的散热、电源转换、网络传输等损耗(PUE系数一般1.2–1.6),实际全栈能耗还得在GPU裸功耗基础上再乘以1.3到1.5倍。
实测数据如下:
发现规律了吗?
对于当下主流商用场景——利用大型模型生成5秒高清视频——耗电200瓦时至600瓦时属于常规区间。局长的“10部手机”(220瓦时)非但不夸张,反而可能还说得保守了。MIT测试的某个新模型甚至高达940瓦时,相当于43部手机的电量。
三、局长为何要提这番话?
若纯粹从技术层面剖析,这句话的精确度取决于“采用何种模型、何种分辨率”。然而王宏志局长在发布会上举此例证,显然并非为了做技术科普。
他的语境是:“人工智能爆发式增长带动用电量激增。”
这正是一位能源主管部门负责人的视角。他关注的并非某款轻量模型在实验室的数据,而是当数以亿计的用户高频使用AI视频生成时,电网能否承受得住。
按0.22度电生成5秒视频来算,倘若一名创作者每天生成100段5秒素材,单月耗电量便超600度,等同于一个普通家庭两三个月的用电量。
当AI从“尝鲜玩具”转变为“基础设施”,这种耗电量的指数级攀升,确实需要在能源规划层面提前做出应对。
这也是为何发布会全程都在强调“算电协同”:西部将算力枢纽与大型新能源基地捆绑建设,东部让分布式算力就近消纳分布式电源,同时鼓励算力设施绿电直连、参与电力市场交易。
四、总结
回到最初的问题:AI生成5秒高清视频,耗电量真的等同于充满10部手机吗?
结论是:在主流商用场景下,不仅属实,甚至可能被低估了。
若你只是在本地运行一个轻量模型做测试,耗电量或许仅几瓦时,这句话对你而言不成立。但若你如多数用户那般,通过云端调用Sora、可灵、Runway等大型模型生成一段可用的5秒高清素材,耗电量普遍在200至600瓦时之间——刚好覆盖“10部手机”(220瓦时)这一基准,甚至远超。
局长的举例,实质上是运用一个大众能体会的日常参照,将“AI高耗能”这一抽象概念具象化了。从能源战略的视角审视,这个比喻不仅精准,而且奏效。
毕竟,当AI开始大量吞噬电力之际,先让大众意识到“5秒视频=10部手机”,或许比讲一千遍“扩散模型计算复杂度”更管用。(完)
注:本文由AI协助完成,应该也耗了不少电。