标签

概率论:AI数学基础的不确定性法则

发布时间:2026-04-25 20:34来源:微信阅读:10

阅读说明:本文面向零基础读者。无需数学基础,只需保持好奇与耐心。建议按顺序阅读,每个概念均基于前面内容展开。

开始前,先看整体地图。学习概率论如同学习新语言,以下是核心"词汇"及关系:

一句话概括:概率论是研究"不确定世界中蕴含确定性规律"的学科。

设想你有一台魔法天平,可测量"事件发生的可能性"。

概率就是天平上的数值——它告诉我们某事件发生的可能程度。

重要提醒:概率50%不等于"试两次必有一次成功"。真实含义是:重复多次实验,成功次数将接近总次数的一半。

场景:一个标准骰子,求掷出"3点"的概率。

思考过程:

公式:

其中:

⚠️常见误区:此公式隐含前提——所有结果必须"等可能"。若骰子被做手脚(如重心偏向6点),则不能直接用此公式!

思想实验:

假设有神奇硬币,"真实正面概率"为60%(但你不知)。

发现规律:抛掷越多,正面比例越接近"真实值"。

这就是频率学派的核心观点:

核心直觉:重复同一件事足够多次,结果均值将稳定,趋近于"真实值"。

注意:不是说"第10001次一定比第10000次更接近真实值"。而是整体看,随次数增加,大幅偏离真实值的可能性越来越小。

类比:如瞄准靶心射箭,每箭可能偏左或偏右,但射1000箭的平均落点,一定比射10箭的平均落点更接近靶心。

核心直觉:众多独立小随机因素叠加,最终结果呈钟形——中间高、两边低。

具体例子:

在餐厅测量1000盘菜的重量。每盘重量受多种小因素影响:厨师手抖、秤的微小误差、温度对水分的影响……每个因素很小,但加在一起,你会发现:

数学表达:

设是独立同分布的随机变量,均值为,标准差为。当很大时:

路径一(看"总和"):

标准化后:

路径二(看"平均"):

标准化后:

关键概念:标准误

叫做标准误(Standard Error)。它不是单个数据的标准差,而是"样本均值"的标准差。

若只记一句话:大数定律说"平均会稳定",中心极限定理说"平均的波动呈钟形"。

场景A:

场景B:

同样问法,不同已知信息,答案完全不同。这就是条件概率。

已知事件已发生,事件发生的条件概率:

符号解读:

生活验证:

假设班级有100人:

那么:"已知喜欢数学的人,也喜欢物理的概率" =

用公式验证:✓

核心直觉:若的发生完全不影响的概率,则与独立。

数学表达:

等价于:

生活例子:

为什么互斥一定不独立?

假设与互斥,且。

若发生了,发生的概率变为0(因为它们不能同时发生)。

但原本,现在变为0——的发生严重影响了的概率!

所以它们不可能独立。

记忆口诀:互斥是"有你没我",独立是"各玩各的"。"有你没我"表明彼此影响巨大,不可能"各玩各的"。

核心直觉:多事件同时发生的概率,可拆成"先算第一件,再算第二件(已知第一件),再算第三件(已知前两件)……"

AI实战:GPT如何预测下一个词?

当你输入"今天天气很",GPT要预测下一个词。它实际在计算:

整个句子的概率是:

为什么GPT只能看前面的词?

因为Transformer的"因果注意力机制"就是链式法则的工程实现——预测第个词时,只能看第1到个词,不能偷看后面的词。

若只记一句话:条件概率 = "已知信息后的新判断";独立 = "知道一件事,另一件事概率不变"。

场景:工厂有三台机器生产零件:

问题:随机抽一个零件,它是次品的概率是多少?

直觉:不能简单地将三个次品率平均!因三台机器产量不同,需按产量"加权"。

一般公式:

假设是样本空间的一个划分(互斥且穷尽,即必有一个发生),则:

关键词"划分"的理解:

想象一个披萨切成几块,每块互不重叠,合起来是整个披萨。这些"块"就是一个划分。

场景:医学检测

直觉:尽管检测很准,但疾病本身罕见。很多阳性结果其实是"误检"!

计算:

震惊:即使检测呈阳性,真正患病的概率仅4.5%!这是因为疾病太罕见,误检人数超过了真患者。

贝叶斯定理的一般形式:

将公式换一种更直观的写法:

贝叶斯思维的核心:

观点应随证据出现而更新。证据越出人意料(在原有观点下越不可能),更新幅度越大。

强证据= 某个观测结果几乎只能由某个特定原因解释。

例子:

量化:贝叶斯因子

若只记一句话:贝叶斯定理告诉我们——先验判断 + 新证据 = 后验判断。罕见疾病的检测阳性,不代表真的患病!

场景:抛一枚硬币,想知道正面概率。

频率学派做法:

贝叶斯学派做法:

好消息:你无需"站队"。现代AI中,两派工具都在用:

若只记一句话:频率学派问"重复实验会怎样",贝叶斯学派问"我现在该相信什么"。两派是工具,不是信仰。

场景:抛100次硬币,70次正面、30次反面。硬币正面概率是多少?

MLE回答:。因为在此参数下,"70次正面、30次反面"结果出现的可能性最大。

公式:

为计算方便,常取对数(对数是单调的,不改变最大值位置):

为什么取对数?

因很多独立事件的概率相乘:

取对数后,乘法变加法,计算更简便:

MLE特点:

场景:仍然抛硬币,100次中70次正面。但你事先知道这枚硬币是工厂标准化生产,正面概率应在50%左右。

MAP回答:综合考虑数据和先验知识,估计值会在70%和50%之间,比如60%。

公式:

取对数后:

对比MLE:MAP多了一项——这就是先验知识的贡献!

补充说明:严格讲,完整贝叶斯方法应给出参数整个后验分布,而非仅取最大值点。MAP只是贝叶斯框架下的一种简化。

为什么高斯先验对应L2正则化?

高斯分布概率密度:

取对数后:

所以MAP的目标函数多了一项,即要最小化——这正是L2正则化!

若只记一句话:MLE = "数据说什么就是什么";MAP = "数据说的 + 我先前知道的"。L1/L2正则化本质上给参数加了先验信念!

核心直觉:将随机事件的结果数字化。

分类:

场景:只有两种结果——成功/失败、点击/不点击、下雨/不下雨。

参数:= 成功概率

例子:用户点击广告概率5%,不点击概率95%。

场景:抛100次硬币,正面出现多少次?

参数:= 试验次数,= 每次成功概率

直觉:它是独立伯努利试验的和。

场景:一小时内客服接到多少个电话?

参数:= 单位时间内平均发生次数

特点:

场景:随机生成0到1之间的一个数。

特点:落在任意等长度子区间内的概率相同。

密度函数图像:一条平线。

场景:客服中心接到下一个电话还需等多久?

特点:

场景:人的身高、考试成绩、测量误差……

密度函数:

参数:

为什么正态分布如此重要?

"68-95-99.7"法则:

若只记一句话:伯努利 = "一次是非题",二项 = "次是非题",泊松 = "单位时间计数",正态 = "自然界的钟"。

核心直觉:若重复实验很多次,结果均值将趋近于期望。

离散型:

连续型:

生活例子:掷骰子的期望

虽然你不可能掷出3.5,但长期平均下来就是这个数。

无论和是否独立:

为什么重要?

此性质不要求变量独立,在分析Dropout、BatchNorm和各种随机算法时极其常用。

例子:

条件期望:已知情况下,的平均取值。

核心洞察:

最小二乘回归本质上用数据估计条件期望函数。

当你用神经网络做回归(使用MSE损失),输出层预测的就是目标变量的条件期望。

核心直觉:衡量随机变量取值偏离期望的程度。

标准差:

生活例子:

方差性质:

核心直觉:衡量两个变量"一起变"的趋势。

解读:

生活例子:身高和体重通常有正协方差——越高的人往往越重。

反例:设,。

何时"不相关 = 独立"?

只有当联合服从正态分布时,不相关才等价于独立。

注意:是"联合"正态分布,不是"各自"正态分布!即使和各自都为正态分布,若它们合在一起不服从联合正态分布,不相关也不一定意味着独立。

问题:协方差数值受量纲影响。身高用厘米还是米,协方差数值差100倍。

解决:标准化!

取值范围:

解读:

若只记一句话:期望是"重心",方差是"分散度",协方差是"同涨同跌",相关系数是"标准化的同涨同跌"。不相关只是没有线性关系,不等于没有关系!

场景:

离散型(求和):

连续型(积分):

通俗理解:

想象联合分布是二维表格(行是你,列是朋友)。想知道你自己的分布?把每行数字加起来,就得到了你的边缘分布!

在隐变量模型(如VAE)中:

解决方案:优化**证据下界(ELBO)**来间接逼近真实的边缘似然。

若只记一句话:边缘化 = "把不关心的变量积分/求和消掉"。在VAE中,隐变量我们看不到,必须消掉它才能和真实数据比较。

场景:你想知道全校学生平均身高,但无法测量每个人。

做法:随机抽1000个学生量身高,取平均。

数学表达:

核心思想:

扩散模型的生成过程是马尔可夫链:

蒙特卡洛的角色:

用采样轨迹近似期望回报,因精确计算所有可能轨迹的期望不可能。

后验分布太复杂,用采样近似参数的不确定性。

若只记一句话:算不出来时,就"多抽几次样,取平均"——这就是蒙特卡洛方法。

生活例子:

天气预报的简化模型:

数学表达:

通俗理解:

想象你在走迷宫。你的下一步只取决于你现在站在哪里,而不取决于你是怎么走到这里的。

若只记一句话:马尔可夫性质 = "现在包含了所有过去的信息"。知道现在,过去就"没用"了。

核心直觉:越不确定的事件,信息量越大,熵也越大。

公式:

生活对比:

注:的底数决定单位(底为2时是"比特",自然对数时是"纳特")。底数不同只相差常数倍,不影响优化方向。

场景:

公式:

为什么叫"编码长度"?

想象你要用一套基于的编码方案去压缩真实服从的数据:

补充直觉:为什么概率越低,编码越长?

编码本质是用二进制串区分不同事件。频繁发生的事件需要短编码(省空间),罕见事件可分配长编码(反正很少用)。概率越小,越大,编码就越长。

公式:

核心直觉:

KL散度 = 交叉熵 − 真实熵。当真实分布固定时,最小化交叉熵等价于最小化KL散度。

⚠️ 为什么KL散度不是真正的"距离"?

因为它不满足对称性:

例子:

这种非对称性正是KL散度与真正"距离"(如欧氏距离)的本质区别。

在分类问题中,假设真实标签分布为,模型预测分布为。最小化交叉熵损失:

这恰好等价于最大似然估计。因此:

训练神经网络时"降低损失" = "提高模型生成真实数据的概率" = "做最大似然估计"

若只记一句话:熵 = "不确定性",交叉熵 = "用错编码的代价",KL散度 = "两个分布的差异"。训练神经网络就是在最小化交叉熵!

不是。概率是长期频率。抛两次硬币,可能两次都是正面,也可能两次都是反面。只有抛成千上万次,正面比例才会接近50%。

关系:

MLE只看数据,MAP还考虑了先验知识。当数据量很大时,两者结果趋近;当数据量小时,先验知识会显著影响MAP结果。

和交换位置,KL散度值不同。在VAE中,衡量的是近似后验与先验的差异,方向有意义——我们要让去逼近,而不是反过来。

扩散模型的生成过程是马尔可夫链(一步步去噪)。但当我们需要评估生成分布的统计特性时,需多次采样取平均,这时用到蒙特卡洛方法。两者是不同层面的概念。

最后的话:概率论不是一堆冰冷公式,而是研究"不确定世界中的确定性规律"的思维方式。把这些直觉建立起来,再面对AI论文中的公式,你会发现它们不再那么可怕了。