信息论基础:用数学原理解码AI核心
阅读指引:本文专为零基础读者设计。你无需任何数学背景,只需带着好奇心和耐心即可。
本文核心理念:通过生活实例理解抽象概念,用直觉替代公式记忆。
⚠️进阶提示:文中带 📌 标记的内容是为想深入理解的读者准备的补充说明,初次阅读可跳过,不影响整体理解。
一、从一个问题开始:什么是"信息"? 二、信息量:单个消息的"意外值" 2.1 生活中的直觉 2.2 数学表达 三、信息熵:平均而言,一个系统有多"不确定" 3.1 从猜谜游戏理解 3.2 数学定义 3.3 具体计算 3.4 极端情况与最大熵原理 四、联合熵与条件熵:多个变量的故事 4.1 联合熵 4.2 条件熵 4.3 铡链式法则:从两个变量到一千个词 五、互信息:两个事物有多"相关" 5.1 经典的"冰淇淋与溺水"悖论 5.2 数学定义 5.3 互信息的另一种视角:分布差异 5.4 互信息的性质 5.5 互信息的因果边界:为什么远远不够 六、条件互信息:已知第三个变量后,还剩多少关联? 七、数据处理不等式:信息不会凭空增长 八、最小描述长度(MDL):奥卡姆剃刀的信息论版本 九、交叉熵:你的预测有多"离谱" 9.1 天气预报员的故事 9.2 交叉熵的定义 9.3 为什么交叉熵能衡量预测质量? 9.4 困惑度:交叉熵的"翻译" 十、KL散度:两个分布的"距离" 10.1 从交叉熵到KL散度 10.2 直觉理解 10.3 天气预报员再比较 10.4 JS散度:让"距离"更公平 十一、Fano不等式:信息不足时,错误不可避免 十二、信息论在人工智能中的应用 12.1 决策树:用信息增益选择最佳特征 12.2 神经网络:交叉熵损失函数 13.1 变分自编码器(VAE):用KL散度约束隐空间 13.2 信息瓶颈(Information Bottleneck)与信息平面 13.3 特征选择:用互信息找到"好"特征 13.4 对比学习:用互信息构建世界模型 13.5 熵正则化:让AI保持"好奇心" 十三、信息论与数据压缩:霍夫曼编码与算术编码 13.1 霍夫曼编码 13.2 算术编码 13.3 渐进均分性(AEP)与典型集:压缩极限的微观解释 十四、香农信道容量:噪声下的通信极限 14.1 生活中的直觉 14.2 信道容量公式 14.3 高斯信道的具体公式 十五、香农信息与语义信息:一个哲学澄清 十六、总结:信息论的核心直觉地图 十七、写在最后 十八、进阶附录:连续世界的微分熵
想象你正在和朋友玩一个游戏:
场景A:你问朋友"明天太阳会从东边升起吗?"朋友回答"是的"。 场景B:你问朋友"明天会地震吗?"朋友回答"是的"。
哪个回答让你更"震惊"?显然是场景B。
为什么?因为"太阳从东边升起"是几乎必然发生的事,你早就知道答案;而"明天地震"是极其罕见的事,你完全没预料到。
这就是信息的核心直觉:信息衡量的是"意外程度"。
假设你关注三个新闻源:
你的反应强度,就是"信息量"的直观体现。
我们用表示事件的信息量。根据上面的直觉:
其中是事件发生的概率。
直觉解读:
例子计算:
📌进阶说明:为什么用对数?因为对数能把"乘法关系"变成"加法关系"。比如连续抛两次硬币,总概率是,而总信息量应该是比特。对数的性质正好满足这个直觉。
想象两个盒子:
盒子A:100个球,50红50蓝。你闭眼摸一个,猜颜色。 盒子B:100个球,99红1蓝。你闭眼摸一个,猜颜色。
哪个盒子让你更"纠结"?显然是盒子A。因为盒子A的结果最难猜,不确定性最大。
信息熵(Entropy)就是用来量化这种"不确定性"的。严格来说,熵衡量的是统计不确定性,而非物理意义上的"混乱"。
如果一个随机变量可能取值为,对应的概率为,那么的熵定义为:
直觉解读:熵就是"信息量的期望值"——平均而言,你每观测一次这个系统,能获得多少信息。
盒子A(50红50蓝):
盒子B(99红1蓝):
盒子A的熵远大于盒子B,说明盒子A更"不确定"。
最不确定:50红50蓝(均匀分布),比特(最大值) 完全确定:100红0蓝,比特(最小值)
重要结论:
📌进阶说明:熵的单位是"比特"(bit, binary digit),这是当对数底数为2时的单位。如果用自然对数(底数为),单位是"纳特"(nat)。在计算机和通信领域,通常使用比特。
📌进阶说明:最大熵原理——对未知保持诚实
假设我告诉你"某城市日均气温的期望值为20°C、方差为25°C²",但不知道具体分布。此时有无穷多个分布满足这两个约束:可能是均匀分布、高斯分布、指数分布……
最大熵原理说:在满足所有已知约束的前提下,应该选择熵最大的分布。
对于这个例子,数学可以证明:高斯分布(正态分布)的熵最大。因此,选择高斯分布是最"诚实"的做法——你不对未知部分做任何额外假设。
⚠️重要前提:最大熵分布取决于你已知哪些约束以及变量的定义域。例如:
因此,"选高斯"并非唯一答案,而是取决于你已知的约束条件。这也解释了为什么指数族分布在统计学中如此普遍——它们都是在"已知最少"时的最优选择。
假设你同时观测天气(晴/雨)和温度(高/低)。
联合熵衡量的是:如果你同时对两个系统一无所知,总的不确定性是多少?
生活直