AI训练数据即将见底
当前主流人工智能技术大多依托机器学习与深度学习架构,其本质在于从海量数据中提取隐藏的模式与规律。缺少训练数据,模型将无法完成学习,人工智能的智能属性也就无从谈起,正因如此,数据常被视为人工智能的“能量来源”。步入大模型时代,采用自监督学习的预训练策略显著降低了对人工标注数据的依赖,使模型能够以更低成本、更高效率处理大规模数据集,推动了数据、模型参数与计算资源三者的协同发展。基于此,业界归纳出著名的规模定律:大语言模型的能力与模型参数量、训练数据规模、计算资源之间呈现平滑的幂律关系,简言之,就是模型规模越大