5秒AI视频耗电等同10台手机？实测揭秘真相

发布时间：2026-06-27 00:04阅读：2

6月26日上午，国务院新闻办发布会。

国家能源局局长王宏志顺口提及的一个案例，让在场不少人惊诧不已——

“每让人工智能生成5秒高清视频，用电量相当于充满10部手机。”

这番言论迅速在网络上引发热议。有人觉得太离谱：我手机充满电能刷一整天短视频，AI怎么生成5秒就“吃”掉10部手机的电量？

好奇心被勾起来了。我们借助Kimi进行了一番推算，看看局长这番话，究竟站不站得住脚。

一、10部手机，究竟有多少电？

先来确定基准线。

目前主流智能手机的电池容量，基本处于4000至5000毫安时范围。按照3.7伏的标准电压来折算，充满一次大约消耗0.015到0.02度电。Hugging Face与卡内基梅隆大学合作进行过估算，得出了一个行业平均数值：约0.022度电（22瓦时）。

那么10部手机全部充满，也就是：

0.22度电

这便是局长那番话里的“参照标准”。0.22度电意味着什么？差不多是一台1.5匹空调运行20分钟的耗电量，或者一台常规冰箱工作两三个小时的用电量。

核心疑问出现了：AI生成5秒视频，果真需要耗费这么多电吗？

二、实测十余款模型，差异大到惊人

AI视频生成并非单一操作，不同模型之间的耗电量差距可达数千倍。

最节能的：轻量化开源模型

例如AnimateDiff这类轻量级模型，在本地运行一段低分辨率测试，单次耗电仅为0.14瓦时——连半部手机都充不满。在这种情形下，局长的说法确实显得“夸张”了。

但问题在于，大众日常使用的，压根不是这类轻量模型。

最费电的：大规模商用模型

当你打开Sora、Runway Gen-4、可灵，亦或国内各大厂商的AI视频生成工具，输入一段提示词，等待系统产出一段720p乃至1080p的5秒高清视频时，背后调用的是参数达数十亿甚至上百亿的大型扩散模型。

Hugging Face的研究表明，视频扩散生成的能耗相较于图像生成高出约30倍，比文本生成高出约2000倍。

更核心的是，能耗与分辨率呈现二次方递增。从480p升至720p，耗电量可能飙升4至7倍；升至1080p，还要再翻一倍。加上数据中心的散热、电源转换、网络传输等损耗（PUE系数一般1.2–1.6），实际全栈能耗还得在GPU裸功耗基础上再乘以1.3到1.5倍。

实测数据如下：

发现规律了吗？

对于当下主流商用场景——利用大型模型生成5秒高清视频——耗电200瓦时至600瓦时属于常规区间。局长的“10部手机”（220瓦时）非但不夸张，反而可能还说得保守了。MIT测试的某个新模型甚至高达940瓦时，相当于43部手机的电量。

三、局长为何要提这番话？

若纯粹从技术层面剖析，这句话的精确度取决于“采用何种模型、何种分辨率”。然而王宏志局长在发布会上举此例证，显然并非为了做技术科普。

他的语境是：“人工智能爆发式增长带动用电量激增。”

这正是一位能源主管部门负责人的视角。他关注的并非某款轻量模型在实验室的数据，而是当数以亿计的用户高频使用AI视频生成时，电网能否承受得住。

按0.22度电生成5秒视频来算，倘若一名创作者每天生成100段5秒素材，单月耗电量便超600度，等同于一个普通家庭两三个月的用电量。

当AI从“尝鲜玩具”转变为“基础设施”，这种耗电量的指数级攀升，确实需要在能源规划层面提前做出应对。

这也是为何发布会全程都在强调“算电协同”：西部将算力枢纽与大型新能源基地捆绑建设，东部让分布式算力就近消纳分布式电源，同时鼓励算力设施绿电直连、参与电力市场交易。

四、总结

回到最初的问题：AI生成5秒高清视频，耗电量真的等同于充满10部手机吗？

结论是：在主流商用场景下，不仅属实，甚至可能被低估了。

若你只是在本地运行一个轻量模型做测试，耗电量或许仅几瓦时，这句话对你而言不成立。但若你如多数用户那般，通过云端调用Sora、可灵、Runway等大型模型生成一段可用的5秒高清素材，耗电量普遍在200至600瓦时之间——刚好覆盖“10部手机”（220瓦时）这一基准，甚至远超。

局长的举例，实质上是运用一个大众能体会的日常参照，将“AI高耗能”这一抽象概念具象化了。从能源战略的视角审视，这个比喻不仅精准，而且奏效。

毕竟，当AI开始大量吞噬电力之际，先让大众意识到“5秒视频=10部手机”，或许比讲一千遍“扩散模型计算复杂度”更管用。（完）

注：本文由AI协助完成，应该也耗了不少电。