人工智能核心知识 - 从基础原理到发展历程

发布时间：2026-07-02 19:01阅读：2

一、课程整体概述

1.1 课程架构

必修基础模块

•机器学习与人工智能入门

•深度学习核心：卷积神经网络（CNN）

•深度学习进阶：Transformer 与自然语言处理

1.2 教学目的与展望

以就业为导向的综合训练

◆理论素养（Knowledge）：系统化讲解理论框架

◆编码技能（Coding Test）：结合行业场景的代码实践

◆求职准备：覆盖所有面试可能涉及的知识点

核心能力强化

◆手写算法：梯度下降、CNN 架构、Transformer 结构

◆理论掌握：能够口头阐述算法原理及实现方法

◆实践能力：完成课后任务与代码练习

二、AI 演进历程

2.1 关键里程碑

1956年 — 人工智能起始年

•达特茅斯研讨会（Dartmouth Conference）

•组织者：麦卡锡（McCarthy）、香农（Shannon）等六位先驱

•引入术语：人工智能（AI）、机器学习（Machine Learning）

•七大议题：神经网络、自然语言、编程等

1965-1974年 — 首个 AI 低谷期

•1965年：德雷福斯（Dreyfus）发表质疑

•1974年：资金大幅缩减

•诱因：资源消耗高、可解决问题有限

1980年代 — 专家系统崛起

•基于 if-else 规则的推理机制

•1987年：专家系统缺陷显现，第二次 AI 衰退

1989年 — 卷积神经网络问世

•Yann LeCun 发表首篇 CNN 论文

•当时为单层结构，非深层学习

1998年 — 深度学习起点

•LeNet-5 推出（Yann LeCun）

•人类首次迈入深度学习阶段（五层网络）

•当时未受关注，直至2012年才获重视

2012-2013年 — 深度学习热潮

•AlexNet 在 ImageNet 竞赛中显著超越传统方法（提升超10%）

•标志深度学习在计算机视觉领域强势登场

•CV 领域自此进入应用阶段

2014-2015年 — 生成模型兴起

•2014年：生成对抗网络（GAN）

•2015年：扩散模型（Diffusion Model）

•标志生成模型大放异彩

•用途：图像合成、文本转图像等

2017年 — 自然语言处理爆发

•Transformer 架构诞生（Attention is All You Need）

•BERT 预训练模型发布

•重塑深度学习结构：摆脱卷积依赖，采用注意力机制

•标志 NLP 领域突破年

2019年 — 大规模模型时代来临

•T5 模型发布（Google）

•人类历史上首个大模型

•开源，推动后续大模型进步

2021年 — 多模态模型发展

•CLIP 模型（OpenAI）

•标志多模态模型崭露头角

•融合 NLP 与 CV，为后续 DALL·E 系列奠基

2.2 AI、机器学习与深度学习的关联

人工智能（AI）→ 机器学习（Machine Learning）→ 神经网络（Neural Network）→ 深度学习（Deep Learning），构成逐级涵盖关系。

发展脉络

•AI 最初涵盖：逻辑编程、搜索算法、推理等（现已弃用）

•机器学习逐步成为 AI 主导方向

•1986年：BP 算法推广，机器学习成为绝对主流

三、机器学习核心范式

3.1 监督学习基本框架

范式三组件

1.数据来源（Data Source）

2.特征抽取（Feature Extraction）

3.目标输出（Target）

运作流程：数据源 → 抽取特征 → 运用特征 → 达成目标

3.2 实际用例

案例1：机器翻译

•数据源：英文语句 "I love 金晨"

•共享特征：抽象语义表示（中英共通的语义概念）

•目标：中文语句 "我爱金晨"

专业词汇

•编码器（Encoder）：特征抽取工具

•解码器（Decoder）：特征运用工具

案例2：物体检测（传统途径）

阶段1：深度学习前

•预处理：定位具有突变特性的像素点（特征点）

•提取特征：在特征点周边提取描述符

•物体检测：基于特征完成检测任务

阶段2：深度学习后

输入图像 → CNN → 直接输出检测结果

•大幅简化流程，提升性能

•CNN 在2013年后彻底变革 CV 领域

3.3 多模态的关键地位

为何学习 CNN？

•当前大模型趋势：多模态（Multimodal）

•不止于 NLP，还包含：

◦文本转图像：Transformer + 图像生成

◦文本转视频：需处理时序图像

◦图像理解：需要 CV 技能

CNN 在多模态中的角色

•图像领域的绝对主导技术

•多模态大模型不可或缺组件

•单纯 Transformer 无法应对视觉任务

四、优化方法入门

4.1 优化问题的核心

主要目标

•从当前状态（State 0）逐步迭代至目标（Target）

•通过迭代缩小差异：State 0 → State 1 → ... → State t ≈ Target

损失函数（Loss Function）

•定义：当前状态与目标间的差距

•Loss = f(θ)，θ 为参数

•目标：使 Loss 趋近于 0 或最小值

4.2 梯度下降（Gradient Descent）

至关重要！

适用场合

•搜索最优解或最小值

三大关键步骤

1.设定 Loss Function

2.求取梯度（对 Loss Function 求导）

3.依据梯度的方向和幅度调整参数

4.3 参数更新规则

θ_new = θ_old − η × ∇L(θ)

其中 η（eta）为学习率（Learning Rate），∇L(θ) 为损失函数的梯度。方向由梯度指引（朝向极小值），步幅 = η × 梯度大小。

学习率（Learning Rate）的作用

•过小：收敛缓慢，可能陷入局部最优

•过大：可能波动，甚至梯度爆炸

•属于超参数（Hyperparameter），需经验调节

核心概念

•极值依赖求导：极值点处导数为 0

•链式法则（Chain Rule）：复合函数求导的基石

•梯度为矢量：兼具方向与幅度

4.4 实践案例：求解方程

求解方程：x² - 2x − 3 = 0

步骤1：定义 Loss Function（均方误差）

步骤2：计算梯度

步骤3：梯度下降迭代公式

停止条件（两种）

•达到最大迭代次数（epochs）

•Loss 足够小（满足精度要求）

4.5 多元场景：雅可比矩阵（Jacobian Matrix）

问题延伸

•多个参数：θ₁, θ₂, ..., θₙ

•多个方程：f₁, f₂, ..., fₘ

雅可比矩阵定义：所有方程对全部参数的一阶导数，矩阵形式 J[i,j] = ∂fᵢ/∂θⱼ

应用领域：深度学习大量参数同步更新、大模型训练本质即此类多元优化。

4.6 批处理思想

批次（Batch）

•问题：百万级数据无法一次处理

•对策：拆分为小批次（如 8、16、64、128）

•一个 Batch：单次处理的数据量

轮次（Epoch）

•定义：全部数据训练一轮

•示例：百万数据 ÷ 10 = 10 万个 Batch

•完成 10 万个 Batch = 1 个 Epoch

术语区分

•GD（Gradient Descent）：一次性使用全部数据（理想状态）

•Mini-batch GD：每次使用一个 Batch（实际应用）

•SGD（Stochastic GD）：标准定义为每次一个样本，实际应用中指 Mini-batch GD

4.7 其他优化技术

•牛顿法（Newton's Method）：利用二阶导数（Hessian 矩阵），收敛更快但计算复杂

•高斯-牛顿法（Gauss-Newton）：牛顿法的变种

•Levenberg-Marquardt（LM）算法：梯度下降与牛顿法的结合，用于复杂系统

五、关键概念补充

5.1 凸函数（Convex Function）

特性

•Loss Function 通常设计为凸函数

•开口向上，仅有一个全局最优解

•确保梯度下降能定位最优点

局部最优挑战

•复杂系统（如大模型）Loss Function 非凸

•存在多个局部极小值，可能陷入局部最优

•应对策略：调整学习率、采用不同初始值

5.2 时序特性（NLP vs CV）

图像（CV）

•无时序性：单张图片为静态

•空间二维结构，适宜卷积处理

文本/语音（NLP）

•有时序性：单词/语音按顺序呈现

•时间一维结构，不宜直接卷积

视频

•二维 + 时序 = 三维数据

•兼具空间与时间属性

5.3 超参数（Hyperparameter）

定义

需人工设定的参数，非训练自动学习。

常见超参数

•学习率（Learning Rate）

•Batch Size

•Epoch 数量

•网络层数、神经元数目等

设定途径

•经验值（玄学）

•前人归纳的默认值

•初始化方式：正态分布 / 何凯明初始化 / Xavier 初始化

六、面试核心总结

6.1 梯度下降必考要点

三个考察方向

1.定义：能否准确设定 Loss Function

2.迭代流程：如何依据梯度更新参数

3.停止条件：何时终止迭代

手写代码要求

•能独立实现梯度下降求解方程

•理解各步骤的数学原理

•能调试并解释结果

6.2 典型面试问题

Q1：初始值如何确定？

•无固定技巧，属经验（玄学）

•大模型：通常以正态分布随机初始化

•简单问题：可依据答案范围估算

Q2：如何防止梯度爆炸？

•合理设定学习率（不宜过大）

•观察 Loss 变化：若 Loss 激增则学习率过大

•采用梯度裁剪（Gradient Clipping）

Q3：多个极值点如何应对？

•实际系统常有多个局部最优，基本难达全局最优

•通过调整学习率和初始值改善

•步幅大可能跨越局部最优，但也可能爆炸

七、课后任务

附录：核心术语中英对照

英文

中文

说明

Gradient Descent

梯度下降

核心优化算法

Learning Rate

学习率

步幅控制参数

Loss Function

损失函数

衡量误差的函数

Encoder

编码器

特征提取模块

Decoder

解码器

特征利用模块

Batch

批次

单次处理的数据量

Epoch

轮次

完整训练全部数据一次

Hyperparameter

超参数

需人工设定的参数

Jacobian Matrix

雅可比矩阵

多元函数的梯度矩阵

Chain Rule

链式法则

复合函数求导规则

Convex Function

凸函数

仅有一个全局最优的函数

Multimodal

多模态

融合多种数据类型

← 上一篇：成都高新区十项AI案例入选国家级典型，领跑四川下一篇：OceanBase掌门人杨冰：AI浪潮催生基础软件重定义契机 →