AI计算集群概述
早期大语言模型训练多采用单卡模式,例如2018年时BERT-Large(3.4亿参数)可直接在单卡上完成训练。然而随着模型参数与数据量呈指数增长,单卡训练遇到三个主要限制:1.显存容量限制一个拥有700亿参数的模型,若采用FP16格式存储,仅参数存储就需140GB空间,而单张H100显卡仅有80GB显存。2.计算时间约束 大模型训练所需的浮点运算量极为庞大,以GPT-3 1750亿参数为例,单张H100显卡需要约5年才能完成训练。3.数据传输瓶颈 大语言模型训练需要处理TB至PB级别的海量语料,但单卡IO