AI科普首讲:大模型真相揭秘
本期避开代码与参数,用最通俗的言辞,剖析大模型的底层逻辑。
许多人误以为大模型是装满知识的超级数据库,问什么便直接提取答案。这是最常见的误区。
大模型的根本属性,是基于海量文本训练而成的概率预测引擎。其核心任务唯有一个:依据前文,预测下一个出现概率最高的词汇。
当你询问“天空是什么颜色”时,它并非查阅百科全书,而是基于学习的数万亿字语料,算出“蓝”字接在“天空是”之后的概率最高,从而输出“蓝色”。
我们所见的流畅对话、逻辑推演、知识问答,皆是这种“文字接龙”能力在超大规模下涌现出的现象。
“大模型”之“大”,绝非指体积或空间占用,而是三个维度的叠加:
正是这三个“大”,促使模型从单纯的文字预测,进化出理解、总结、创作等近似人类的能力。
大模型的技术基石(Transformer架构)早在2017年便已问世,但直至近两年才爆发,核心原因在于规模效应触发了能力涌现。
当模型规模跨越某个临界点,会突然显现出训练时未曾专门教授的能力:例如未学数学却能解应用题,未学翻译却能跨语言交流,未学编程却能写出可运行的代码。
此类能力无法通过小模型达成,也无法预先设计,完全是规模积累后的自然产物。这也是大模型与传统AI最本质的差异:传统AI是“教什么会什么”,大模型则是“学得足够多后,自行领悟新技能”。
理解了原理,便能明白大模型为何会产生“幻觉”:
它仅关注下一个词的概率是否合理,不在乎内容是否符合事实。当遭遇知识盲区时,它不会回答“我不知道”,而是会用符合语法和逻辑的方式,编造一个看似完全正确的答案。
它缺乏对真实世界的感知,没有价值观判断,亦无记忆与自我意识。所有输出均为统计规律的产物,而非真正的“思考”。
认清这一点,方能正确使用它:将其视为强大的辅助工具,而非绝对可信的答案来源