信息论基础：用数学原理解码AI核心

发布时间：2026-05-19 16:32阅读：11

阅读指引：本文专为零基础读者设计。你无需任何数学背景，只需带着好奇心和耐心即可。

本文核心理念：通过生活实例理解抽象概念，用直觉替代公式记忆。

⚠️进阶提示：文中带 📌 标记的内容是为想深入理解的读者准备的补充说明，初次阅读可跳过，不影响整体理解。

一、从一个问题开始：什么是"信息"？二、信息量：单个消息的"意外值" 2.1 生活中的直觉 2.2 数学表达三、信息熵：平均而言，一个系统有多"不确定" 3.1 从猜谜游戏理解 3.2 数学定义 3.3 具体计算 3.4 极端情况与最大熵原理四、联合熵与条件熵：多个变量的故事 4.1 联合熵 4.2 条件熵 4.3 铡链式法则：从两个变量到一千个词五、互信息：两个事物有多"相关" 5.1 经典的"冰淇淋与溺水"悖论 5.2 数学定义 5.3 互信息的另一种视角：分布差异 5.4 互信息的性质 5.5 互信息的因果边界：为什么远远不够六、条件互信息：已知第三个变量后，还剩多少关联？七、数据处理不等式：信息不会凭空增长八、最小描述长度（MDL）：奥卡姆剃刀的信息论版本九、交叉熵：你的预测有多"离谱" 9.1 天气预报员的故事 9.2 交叉熵的定义 9.3 为什么交叉熵能衡量预测质量？ 9.4 困惑度：交叉熵的"翻译" 十、KL散度：两个分布的"距离" 10.1 从交叉熵到KL散度 10.2 直觉理解 10.3 天气预报员再比较 10.4 JS散度：让"距离"更公平十一、Fano不等式：信息不足时，错误不可避免十二、信息论在人工智能中的应用 12.1 决策树：用信息增益选择最佳特征 12.2 神经网络：交叉熵损失函数 13.1 变分自编码器（VAE）：用KL散度约束隐空间 13.2 信息瓶颈（Information Bottleneck）与信息平面 13.3 特征选择：用互信息找到"好"特征 13.4 对比学习：用互信息构建世界模型 13.5 熵正则化：让AI保持"好奇心" 十三、信息论与数据压缩：霍夫曼编码与算术编码 13.1 霍夫曼编码 13.2 算术编码 13.3 渐进均分性（AEP）与典型集：压缩极限的微观解释十四、香农信道容量：噪声下的通信极限 14.1 生活中的直觉 14.2 信道容量公式 14.3 高斯信道的具体公式十五、香农信息与语义信息：一个哲学澄清十六、总结：信息论的核心直觉地图十七、写在最后十八、进阶附录：连续世界的微分熵

想象你正在和朋友玩一个游戏：

场景A：你问朋友"明天太阳会从东边升起吗？"朋友回答"是的"。场景B：你问朋友"明天会地震吗？"朋友回答"是的"。

哪个回答让你更"震惊"？显然是场景B。

为什么？因为"太阳从东边升起"是几乎必然发生的事，你早就知道答案；而"明天地震"是极其罕见的事，你完全没预料到。

这就是信息的核心直觉：信息衡量的是"意外程度"。

假设你关注三个新闻源：

你的反应强度，就是"信息量"的直观体现。

我们用表示事件的信息量。根据上面的直觉：

其中是事件发生的概率。

直觉解读：

例子计算：

📌进阶说明：为什么用对数？因为对数能把"乘法关系"变成"加法关系"。比如连续抛两次硬币，总概率是，而总信息量应该是比特。对数的性质正好满足这个直觉。

想象两个盒子：

盒子A：100个球，50红50蓝。你闭眼摸一个，猜颜色。盒子B：100个球，99红1蓝。你闭眼摸一个，猜颜色。

哪个盒子让你更"纠结"？显然是盒子A。因为盒子A的结果最难猜，不确定性最大。

信息熵（Entropy）就是用来量化这种"不确定性"的。严格来说，熵衡量的是统计不确定性，而非物理意义上的"混乱"。

如果一个随机变量可能取值为，对应的概率为，那么的熵定义为：

直觉解读：熵就是"信息量的期望值"——平均而言，你每观测一次这个系统，能获得多少信息。

盒子A（50红50蓝）：

盒子B（99红1蓝）：

盒子A的熵远大于盒子B，说明盒子A更"不确定"。

最不确定：50红50蓝（均匀分布），比特（最大值）完全确定：100红0蓝，比特（最小值）

重要结论：

📌进阶说明：熵的单位是"比特"（bit, binary digit），这是当对数底数为2时的单位。如果用自然对数（底数为），单位是"纳特"（nat）。在计算机和通信领域，通常使用比特。

📌进阶说明：最大熵原理——对未知保持诚实

假设我告诉你"某城市日均气温的期望值为20°C、方差为25°C²"，但不知道具体分布。此时有无穷多个分布满足这两个约束：可能是均匀分布、高斯分布、指数分布……

最大熵原理说：在满足所有已知约束的前提下，应该选择熵最大的分布。

对于这个例子，数学可以证明：高斯分布（正态分布）的熵最大。因此，选择高斯分布是最"诚实"的做法——你不对未知部分做任何额外假设。

⚠️重要前提：最大熵分布取决于你已知哪些约束以及变量的定义域。例如：

因此，"选高斯"并非唯一答案，而是取决于你已知的约束条件。这也解释了为什么指数族分布在统计学中如此普遍——它们都是在"已知最少"时的最优选择。

假设你同时观测天气（晴/雨）和温度（高/低）。

联合熵衡量的是：如果你同时对两个系统一无所知，总的不确定性是多少？

生活直

← 上一篇：AI热潮下的市场预警：专家预测明年或现大幅回调下一篇：浙江探索：AI赋能民政事业高质量发展 →