一次训练耗电2400万度,AI发展正在消耗大量能源!
一次训练耗电2400万度,AI发展正在消耗大量能源!
文|猛犸
今天我们常说的人工智能(AI),主要指的都是生成式人工智能。其中一大部分,是基于大语言模型的生成式 AI。而让各种 AI 运转起来的服务器就是电子计算机,虽然计算机中处理的只是信息,但运转却需要大量能源。
比如,仅仅是 ChatGPT-4 的 GPU(计算机显卡的核心部件,负责执行复杂的数学和几何计算,用于渲染图像、视频和其他图形内容,也用于 AI 的训练和推理 ) ,训练一次就会用去 2400 万度电。
AI 带来的能源问题已经显现。
一个被证实的原理——处理信息需要消耗能量
1961 年,在 IBM 公司工作的物理学家拉尔夫 · 兰道尔提出了后来被称为 " 兰道尔原理 " 的理论。这一理论认为,计算机中存储的信息在发生不可逆的变化时,会向周围环境散发一点点热量,其散发的热量和计算机当时所处的温度有关——温度越高,散发的热量越多。
兰道尔原理连接起了 " 信息 " 和 " 能量 ",简单地说,就是信息处理操作,会导致物理世界中熵(热力学中表征物质状态的参量之一)的增加,从而消耗能量。
这一原理自提出以来曾遭受过不少质疑。但是近年来,兰道尔原理已被实验证明。
2012 年,《自然》杂志上发表了一篇文章,研究团队首次测量到了一 " 位 "(bit,是计算机中最基本的信息单位,它可以表示二进制的 0 或 1)数据被删除时释放的微量热量。后来又有几次独立实验,都证明了兰道尔原理。所以,处理信息是有能量成本的。现在的电子计算机在计算时实际消耗的能量,甚至是这个理论值的数亿倍。
大语言模型需要大量计算。它的工作过程大致可以分为训练和推理两个阶段。无论是训练还是推理,都是一连串信息重组的过程,因此都遵循兰道尔原理。于是我们不难推知,模型的参数量越大,需要处理的数据越多,所需的计算量就越大,所消耗的能量也就越大,释放的热量也就越多。
AI 的能耗更多还是来自电流
科学家们一直在努力寻找更高效的计算方法,以降低成本。不过从目前的研究进展情况来看,也许只有真正的室温超导材料能广泛应用于计算设备时,才有可能降低这种消耗。
而这还只是 AI 耗电中微不足道的一小部分。更大的消耗则来自电流。
今天的电子计算机建立在集成电路的基础上。我们通常把集成电路叫做芯片,每个芯片中,又有许多晶体管。不严格地描述,晶体管可以理解成微小的开关。这些开关串联或者并联在一起,就可以实现逻辑运算。
" 开 " 和 " 关 " 是表示两种状态,也就是所谓的 1 和 0,就是计算的基本单位 " 位 "。它是计算机二进制的基础。而计算机通过快速改变电压,来拨动这些开关;改变电压,需要电子流入或流出;电子的流入流出,就构成了电流;又因为在电路中总是有电阻,就产生了热能。这个过程中产生的热量与电流的平方成正比,与导体电阻成正比,与通电时间成正比。
集成电路技术发展到今天,芯片中的晶体管已经变得极小。所以,单个晶体管所产生的热量并不会太高。但问题是,如今芯片上的晶体管实在是已经多到了常人无法想象的程度——比如,在 IBM 前几年发布的等效 2 纳米制程芯片中,每平方毫米面积上,平均有 3.3 亿个晶体管。
再小的热量,乘上这个规模,结果也一定相当可观。
一个可能让人大跌眼镜的事实是,今天芯片单位体积的功率,比太阳核心的功率还多出好几个数量级——典型的 CPU 芯片功率大概是每立方厘米 100 瓦,即每立方米 1 亿瓦;而太阳核心的功率只有每立方米不到 300 瓦。
在 OpenAI 公司训练大语言模型 ChatGPT-4 时,完成一次训练需要约三个月时间,要使用大约 25000 块 " 英伟达 A100 GPU",每块 GPU 都拥有 540 亿个晶体管,功耗 400 瓦,每秒钟可以进行 19.5 万亿次单精度浮点数的运算,每次运算又涉及许多个晶体管的开关。
仅仅是这些 GPU,一次训练就要用掉 2400 万度电。这些电能最后几乎全部转化成了热能,而这些能量可以将大约 20 万立方米冰水——大概是 100 个奥运会标准游泳池的水量——加热到沸腾。
AI 发展带来的能源短缺问题已开始浮现
为什么 AI 需要用这么多的强大 GPU 来训练?因为大语言模型的规模实在太大。
ChatGPT-3 模型已拥有 1750 亿参数,而据推测,ChatGPT-4 拥有 1.8 万亿参数,是 ChatGPT-3 的十倍。要训练这种规模的模型,需要大量计算。这些计算最终会表现为晶体管的开开关关,和集成电路中细细的电流——以及热量。
而能量无法创造也无法消灭,它只能从一种形式转化成另一种形式。对于电子计算机来说,它主要是在将电能转化成热能。大语言模型也是如此,它对电能和冷却水的需求,正带来越来越严重的环境问题。
早前,有微软公司的工程师曾透露,为了训练 ChatGPT-6,微软和 OpenAI 建造了巨大的数据中心,将会使用 10 万块 " 英伟达 H100 GPU" ——其性能比 " 英伟达 A100 GPU" 更强,当然功耗也更大。其中一个关键信息是,这些 GPU 不能放在同一个州,否则会导致电网负荷过大而崩溃。
在今年的达沃斯世界经济论坛上,OpenAI 的 CEO 山姆 · 阿尔特曼认为,核聚变可能是能源的发展方向。但要开发出真正可用的核聚变技术,可能还需要一些时间。
水资源的问题也是一样。过去几年,那些在 AI 大模型领域先行一步的大企业们,都面临水消耗大幅增长的局面。2023 年 6 月,微软公司发布了 2022 年度环境可持续发展报告,其中用水一项,有超过 20% 的显著增长。谷歌公司也类似。
有研究者认为,AI 的发展,是这些科技巨头用水量剧增的主要原因——要冷却疯狂发热的芯片,水冷系统是最常见的选择。所以我们说,为 AI 提供硬件基础的数据中心,如同一个巨大的 " 电热水器 "。
所以,AI 发展带来的能源短缺问题,已经开始浮现。
如何让这些散失的热能不至于白白浪费?最容易想到也容易实现的,是热回收技术。比方说,将数据中心回收的热量用于提供民用热水,冬季提供民用采暖。现在有一些企业已经着手在回收废热再利用了,例如中国移动哈尔滨数据中心、阿里巴巴千岛湖数据中心等。
但这并不能从根本上解决问题。
AI 产业的发展速度之快,在人类历史上没有任何产业能与之相比。平衡 AI 技术的发展与环境的可持续性,可能会是我们未来几年的重要议题之一。
技术进步和能源消耗之间的复杂关系,从来没有这么急迫地出现在人类面前。
本文由科普中国 - 星空计划出品,来源于微信公众号 " 返朴 "(ID:fanpu2019)
-
- 5亿个token之后,我们得出关于GPT的七条宝贵经验
-
2024-04-21 06:23:42
-
- 特斯拉被裁员工讲述裁员亲身经历
-
2024-04-21 06:21:26
-
- 记者体验“王婆说媒”:只提供机会不是发对象,有人称“结婚就送你一套房”
-
2024-04-21 06:19:10
-
- 华为造爆款,耗时8分钟
-
2024-04-21 06:16:54
-
- 特步,为什么要赞助马拉松
-
2024-04-21 06:14:38
-
- 湖南9岁男孩坠楼身亡,家属:孩子还躺在殡仪馆,班主任始终没出现
-
2024-04-21 06:12:22
-
- 那个震撼无数网友的人形机器人Atlas,退役了。
-
2024-04-21 06:10:07
-
- 日经指数大基金不涨,日经主题ETF遭吐槽:这基金违规!究竟何原因?
-
2024-04-21 06:07:51
-
- 深天马A陷入巨亏泥潭,公司联营企业巨亏超20亿元“惹”关注
-
2024-04-19 11:11:43
-
- 九号的出海启示:把车卖到美国欧洲,也没那么难?
-
2024-04-19 11:09:27
-
- 沙特超级大项目,找到了中国
-
2024-04-19 11:07:11
-
- 雷军:小米SU7销量比预计高约5倍,交付提前至4月18日
-
2024-04-19 11:04:56
-
- 无痕浏览有多坑?有人暗中收集了几十亿数据.
-
2024-04-19 11:02:40
-
- 三部门印发《关于进一步优化商业领域支付服务 提升支付便利性的通知》
-
2024-04-19 11:00:23
-
- 《广东省人民政府2024年度立法工作计划》发布
-
2024-04-19 10:58:07
-
- 《重生之我是爽文男主雷军》:卖车是销冠直播是顶流,所有老板在“模仿”我
-
2024-04-19 10:55:51
-
- 塞纳河畔,流动的盛宴徐徐展开
-
2024-04-19 10:53:35
-
- “与醉汉冲突被刑拘”大学生已回家,到底能否算作正当防卫?
-
2024-04-19 10:51:19
-
- 最高法:近期4位满12周岁不满14周岁未成年人被判刑
-
2024-04-18 15:53:39
-
- 孩子理发138元妈妈嫌贵只愿付24元,协商无果后直接离开
-
2024-04-18 15:51:23