AI · 基础概念
神经网络 · 深度学习 · Transformer · GPT 四层嵌套关系——从最底层的"积木"到最尖端的"成品"
一句话:
神经网络 ⊃ 深度学习 ⊃ Transformer 架构 ⊃ GPT。
四者是层层包含、逐步特化的嵌套关系,不是平行概念。
神经网络是积木,深度学习是用积木盖高楼的方法,Transformer 是一种革命性的新结构设计,GPT 是用这种结构盖出来的、最有名的一栋楼。
6 个关键数据
1943
神经网络元年
McCulloch & Pitts 提出人工神经元模型
2012
深度学习爆发
AlexNet 在 ImageNet 一举夺冠,标志 DL 时代开启
2017
TRANSFORMER 诞生
Google《Attention Is All You Need》
1.17亿
GPT-1 参数量
2018 · 验证预训练 + 微调范式
1750亿
GPT-3 参数量
2020 · 规模化涌现能力的临界点
1000×+
5 年参数膨胀
GPT-1 → GPT-3 增长约 1500 倍
嵌套层级图
外层"包含"内层,越往里越具体。下面这张图就是把四层关系的包含关系画出来:
从外到内:包含 → 特化 → 架构 → 实例
逐层拆解
LAYER 1 · 积木
神经网络(Neural Network)
受生物神经元启发,由人工神经元(节点)和可学习的权重连接组成的计算模型。是后面所有概念的物理基础。
- 核心三件套:权重 + 偏置(参数化连接强度)、激活函数(ReLU/Sigmoid 等,引入非线性)、前向/反向传播(用梯度下降调整权重)
- 主要家族:MLP(多层感知机)、CNN(卷积神经网络,处理图像)、RNN(循环神经网络,处理序列)
LAYER 2 · 方法
深度学习(Deep Learning)
深度学习 = 多层("深"层)神经网络 + 大规模数据 + 强算力(GPU)的训练范式。
- "深"指什么:隐藏层多(通常 ≥ 几层到上百层),能自动学习层次化特征——例如图像识别:边缘 → 纹理 → 部件 → 物体
- 不是新算法:是当网络深到一定程度后、配合大数据和 GPU 才能跑得动的训练方法论
- 历史转折:2012 年 AlexNet(深度 CNN)在 ImageNet 一举夺冠,深度学习时代正式开启
关系澄清:所有深度学习模型都是神经网络 ✅;但不是所有神经网络都是深度学习(浅层网络不算)✅
LAYER 3 · 架构
Transformer
2017 年 Google 在论文 Attention Is All You Need 中提出,专为序列数据设计的架构范式。
- 自注意力(Self-Attention):让序列中任意两个位置直接"对话",彻底解决 RNN 长距离依赖衰减问题
- 完全并行化:摆脱 RNN 必须按时间步串行计算的瓶颈,训练效率数量级提升
- 位置编码(Positional Encoding):用额外向量补回"顺序"信息
- 原始结构:Encoder–Decoder(编码器-解码器各 6 层堆叠),用于机器翻译
关系澄清:Transformer 不是一个具体模型,而是一类架构蓝图。基于它衍生出的著名模型:GPT(只用 Decoder)、BERT(只用 Encoder)、T5(完整 Encoder-Decoder)。
LAYER 4 · 实例
GPT(Generative Pre-trained Transformer)
OpenAI 出的生成式预训练语言模型系列。Transformer 架构最著名的具体实现。
- 只用 Decoder 部分:去掉 Encoder
- 因果掩码(Causal Mask):每个位置只能看到自己和之前的 token,保证"从左到右"生成
- 预训练任务:自回归语言建模——预测下一个词
- 规模演进:GPT-1(1.17 亿参数,2018)→ GPT-2(15 亿,2019)→ GPT-3(1750 亿,2020)→ GPT-4/4o/4.5(未公开,规模与多模态进一步扩大)
关系澄清:GPT = Transformer 架构 + 自回归预训练 + 海量数据 + 规模化(Scaling Law)。它的成功不仅靠架构,还靠缩放假设和涌现能力。
常见误区对照
| 误区 | 正确认知 |
|---|---|
| 深度学习是新技术,跟神经网络无关 | 本质就是"深层神经网络"的训练范式,是神经网络的一个子集 |
| Transformer 是一个模型 | Transformer 是架构,GPT / BERT / T5 才是具体模型 |
| GPT 就是 Transformer | GPT 用的是 Transformer 的 Decoder 子集,并叠加了预训练 + 规模化 |
| 所有 AI 都是深度学习 | 不是——符号主义、决策树、SVM 等属于传统机器学习 |
| 神经网络 = 大脑模拟 | 只是受启发。人工神经元远比生物神经元简单,连"思考"都没有,只是矩阵运算 + 激活函数 |
一句话总结
神经网络是积木,深度学习是用积木盖高楼的建筑方法,Transformer 是一种革命性的新型结构设计,GPT 是用这种结构盖出来的、最有名的一栋大楼。