概率论:AI数学基础的不确定性法则
阅读说明:本文面向零基础读者。无需数学基础,只需保持好奇与耐心。建议按顺序阅读,每个概念均基于前面内容展开。
开始前,先看整体地图。学习概率论如同学习新语言,以下是核心"词汇"及关系:
一句话概括:概率论是研究"不确定世界中蕴含确定性规律"的学科。
设想你有一台魔法天平,可测量"事件发生的可能性"。
概率就是天平上的数值——它告诉我们某事件发生的可能程度。
重要提醒:概率50%不等于"试两次必有一次成功"。真实含义是:重复多次实验,成功次数将接近总次数的一半。
场景:一个标准骰子,求掷出"3点"的概率。
思考过程:
公式:
其中:
⚠️常见误区:此公式隐含前提——所有结果必须"等可能"。若骰子被做手脚(如重心偏向6点),则不能直接用此公式!
思想实验:
假设有神奇硬币,"真实正面概率"为60%(但你不知)。
发现规律:抛掷越多,正面比例越接近"真实值"。
这就是频率学派的核心观点:
核心直觉:重复同一件事足够多次,结果均值将稳定,趋近于"真实值"。
注意:不是说"第10001次一定比第10000次更接近真实值"。而是整体看,随次数增加,大幅偏离真实值的可能性越来越小。
类比:如瞄准靶心射箭,每箭可能偏左或偏右,但射1000箭的平均落点,一定比射10箭的平均落点更接近靶心。
核心直觉:众多独立小随机因素叠加,最终结果呈钟形——中间高、两边低。
具体例子:
在餐厅测量1000盘菜的重量。每盘重量受多种小因素影响:厨师手抖、秤的微小误差、温度对水分的影响……每个因素很小,但加在一起,你会发现:
数学表达:
设是独立同分布的随机变量,均值为,标准差为。当很大时:
路径一(看"总和"):
标准化后:
路径二(看"平均"):
标准化后:
关键概念:标准误
叫做标准误(Standard Error)。它不是单个数据的标准差,而是"样本均值"的标准差。
若只记一句话:大数定律说"平均会稳定",中心极限定理说"平均的波动呈钟形"。
场景A:
场景B:
同样问法,不同已知信息,答案完全不同。这就是条件概率。
已知事件已发生,事件发生的条件概率:
符号解读:
生活验证:
假设班级有100人:
那么:"已知喜欢数学的人,也喜欢物理的概率" =
用公式验证:✓
核心直觉:若的发生完全不影响的概率,则与独立。
数学表达:
等价于:
生活例子:
为什么互斥一定不独立?
假设与互斥,且。
若发生了,发生的概率变为0(因为它们不能同时发生)。
但原本,现在变为0——的发生严重影响了的概率!
所以它们不可能独立。
记忆口诀:互斥是"有你没我",独立是"各玩各的"。"有你没我"表明彼此影响巨大,不可能"各玩各的"。
核心直觉:多事件同时发生的概率,可拆成"先算第一件,再算第二件(已知第一件),再算第三件(已知前两件)……"
AI实战:GPT如何预测下一个词?
当你输入"今天天气很",GPT要预测下一个词。它实际在计算:
整个句子的概率是:
为什么GPT只能看前面的词?
因为Transformer的"因果注意力机制"就是链式法则的工程实现——预测第个词时,只能看第1到个词,不能偷看后面的词。
若只记一句话:条件概率 = "已知信息后的新判断";独立 = "知道一件事,另一件事概率不变"。
场景:工厂有三台机器生产零件:
问题:随机抽一个零件,它是次品的概率是多少?
直觉:不能简单地将三个次品率平均!因三台机器产量不同,需按产量"加权"。
一般公式:
假设是样本空间的一个划分(互斥且穷尽,即必有一个发生),则:
关键词"划分"的理解:
想象一个披萨切成几块,每块互不重叠,合起来是整个披萨。这些"块"就是一个划分。
场景:医学检测
直觉:尽管检测很准,但疾病本身罕见。很多阳性结果其实是"误检"!
计算:
震惊:即使检测呈阳性,真正患病的概率仅4.5%!这是因为疾病太罕见,误检人数超过了真患者。
贝叶斯定理的一般形式:
将公式换一种更直观的写法:
贝叶斯思维的核心:
观点应随证据出现而更新。证据越出人意料(在原有观点下越不可能),更新幅度越大。
强证据= 某个观测结果几乎只能由某个特定原因解释。
例子:
量化:贝叶斯因子
若只记一句话:贝叶斯定理告诉我们——先验判断 + 新证据 = 后验判断。罕见疾病的检测阳性,不代表真的患病!
场景:抛一枚硬币,想知道正面概率。
频率学派做法:
贝叶斯学派做法:
好消息:你无需"站队"。现代AI中,两派工具都在用:
若只记一句话:频率学派问"重复实验会怎样",贝叶斯学派问"我现在该相信什么"。两派是工具,不是信仰。
场景:抛100次硬币,70次正面、30次反面。硬币正面概率是多少?
MLE回答:。因为在此参数下,"70次正面、30次反面"结果出现的可能性最大。
公式:
为计算方便,常取对数(对数是单调的,不改变最大值位置):
为什么取对数?
因很多独立事件的概率相乘:
取对数后,乘法变加法,计算更简便:
MLE特点:
场景:仍然抛硬币,100次中70次正面。但你事先知道这枚硬币是工厂标准化生产,正面概率应在50%左右。
MAP回答:综合考虑数据和先验知识,估计值会在70%和50%之间,比如60%。
公式:
取对数后:
对比MLE:MAP多了一项——这就是先验知识的贡献!
补充说明:严格讲,完整贝叶斯方法应给出参数整个后验分布,而非仅取最大值点。MAP只是贝叶斯框架下的一种简化。
为什么高斯先验对应L2正则化?
高斯分布概率密度:
取对数后:
所以MAP的目标函数多了一项,即要最小化——这正是L2正则化!
若只记一句话:MLE = "数据说什么就是什么";MAP = "数据说的 + 我先前知道的"。L1/L2正则化本质上给参数加了先验信念!
核心直觉:将随机事件的结果数字化。
分类:
场景:只有两种结果——成功/失败、点击/不点击、下雨/不下雨。
参数:= 成功概率
例子:用户点击广告概率5%,不点击概率95%。
场景:抛100次硬币,正面出现多少次?
参数:= 试验次数,= 每次成功概率
直觉:它是独立伯努利试验的和。
场景:一小时内客服接到多少个电话?
参数:= 单位时间内平均发生次数
特点:
场景:随机生成0到1之间的一个数。
特点:落在任意等长度子区间内的概率相同。
密度函数图像:一条平线。
场景:客服中心接到下一个电话还需等多久?
特点:
场景:人的身高、考试成绩、测量误差……
密度函数:
参数:
为什么正态分布如此重要?
"68-95-99.7"法则:
若只记一句话:伯努利 = "一次是非题",二项 = "次是非题",泊松 = "单位时间计数",正态 = "自然界的钟"。
核心直觉:若重复实验很多次,结果均值将趋近于期望。
离散型:
连续型:
生活例子:掷骰子的期望
虽然你不可能掷出3.5,但长期平均下来就是这个数。
无论和是否独立:
为什么重要?
此性质不要求变量独立,在分析Dropout、BatchNorm和各种随机算法时极其常用。
例子:
条件期望:已知情况下,的平均取值。
核心洞察:
最小二乘回归本质上用数据估计条件期望函数。
当你用神经网络做回归(使用MSE损失),输出层预测的就是目标变量的条件期望。
核心直觉:衡量随机变量取值偏离期望的程度。
标准差:
生活例子:
方差性质:
核心直觉:衡量两个变量"一起变"的趋势。
解读:
生活例子:身高和体重通常有正协方差——越高的人往往越重。
反例:设,。
何时"不相关 = 独立"?
只有当联合服从正态分布时,不相关才等价于独立。
注意:是"联合"正态分布,不是"各自"正态分布!即使和各自都为正态分布,若它们合在一起不服从联合正态分布,不相关也不一定意味着独立。
问题:协方差数值受量纲影响。身高用厘米还是米,协方差数值差100倍。
解决:标准化!
取值范围:
解读:
若只记一句话:期望是"重心",方差是"分散度",协方差是"同涨同跌",相关系数是"标准化的同涨同跌"。不相关只是没有线性关系,不等于没有关系!
场景:
离散型(求和):
连续型(积分):
通俗理解:
想象联合分布是二维表格(行是你,列是朋友)。想知道你自己的分布?把每行数字加起来,就得到了你的边缘分布!
在隐变量模型(如VAE)中:
解决方案:优化**证据下界(ELBO)**来间接逼近真实的边缘似然。
若只记一句话:边缘化 = "把不关心的变量积分/求和消掉"。在VAE中,隐变量我们看不到,必须消掉它才能和真实数据比较。
场景:你想知道全校学生平均身高,但无法测量每个人。
做法:随机抽1000个学生量身高,取平均。
数学表达:
核心思想:
扩散模型的生成过程是马尔可夫链:
蒙特卡洛的角色:
用采样轨迹近似期望回报,因精确计算所有可能轨迹的期望不可能。
后验分布太复杂,用采样近似参数的不确定性。
若只记一句话:算不出来时,就"多抽几次样,取平均"——这就是蒙特卡洛方法。
生活例子:
天气预报的简化模型:
数学表达:
通俗理解:
想象你在走迷宫。你的下一步只取决于你现在站在哪里,而不取决于你是怎么走到这里的。
若只记一句话:马尔可夫性质 = "现在包含了所有过去的信息"。知道现在,过去就"没用"了。
核心直觉:越不确定的事件,信息量越大,熵也越大。
公式:
生活对比:
注:的底数决定单位(底为2时是"比特",自然对数时是"纳特")。底数不同只相差常数倍,不影响优化方向。
场景:
公式:
为什么叫"编码长度"?
想象你要用一套基于的编码方案去压缩真实服从的数据:
补充直觉:为什么概率越低,编码越长?
编码本质是用二进制串区分不同事件。频繁发生的事件需要短编码(省空间),罕见事件可分配长编码(反正很少用)。概率越小,越大,编码就越长。
公式:
核心直觉:
KL散度 = 交叉熵 − 真实熵。当真实分布固定时,最小化交叉熵等价于最小化KL散度。
⚠️ 为什么KL散度不是真正的"距离"?
因为它不满足对称性:
例子:
这种非对称性正是KL散度与真正"距离"(如欧氏距离)的本质区别。
在分类问题中,假设真实标签分布为,模型预测分布为。最小化交叉熵损失:
这恰好等价于最大似然估计。因此:
训练神经网络时"降低损失" = "提高模型生成真实数据的概率" = "做最大似然估计"
若只记一句话:熵 = "不确定性",交叉熵 = "用错编码的代价",KL散度 = "两个分布的差异"。训练神经网络就是在最小化交叉熵!
不是。概率是长期频率。抛两次硬币,可能两次都是正面,也可能两次都是反面。只有抛成千上万次,正面比例才会接近50%。
关系:
MLE只看数据,MAP还考虑了先验知识。当数据量很大时,两者结果趋近;当数据量小时,先验知识会显著影响MAP结果。
和交换位置,KL散度值不同。在VAE中,衡量的是近似后验与先验的差异,方向有意义——我们要让去逼近,而不是反过来。
扩散模型的生成过程是马尔可夫链(一步步去噪)。但当我们需要评估生成分布的统计特性时,需多次采样取平均,这时用到蒙特卡洛方法。两者是不同层面的概念。
最后的话:概率论不是一堆冰冷公式,而是研究"不确定世界中的确定性规律"的思维方式。把这些直觉建立起来,再面对AI论文中的公式,你会发现它们不再那么可怕了。