AI圣经03 《序列到序列：一进一出，AI翻译框架的诞生》

发布时间：2026-06-27 15:02阅读：2

📚 AI 圣经 · 系列导览这是「AI 圣经」系列第03篇。我会带你逐篇精读撑起今天所有大模型的21 篇经典论文，分 5 个阶段层层递进（本篇已高亮）：

本篇论文：《Sequence to Sequence Learning with Neural Networks》· Sutskever, Vinyals, Le 2014 · NeurIPS 2014。地址arXiv:1409.3215（arxiv.org/abs/1409.3215）。其余各篇论文地址，随当期文章给出。 📩 回复「AI圣经03」，领取本篇论文 PDF。

太长不读今天你给大模型「发一段、回一段」习以为常，但2014 年以前，让神经网络做这件事还是个公开难题——输入和输出的长度都不固定，老网络处理不了。这篇论文给了第一个干净答案：让一个网络负责「读」（把整句话压成一个向量），另一个网络负责「写」（从这个向量逐词生成）。读完你能拿到一条清晰的历史线——今天所有大模型「一段进、一段出」的骨架，是怎么在一台翻译机器里被立起来的。

上篇回顾 · 先答一题 AI圣经02 讲的是 Bahdanau 注意力：它是给老翻译模型打的一个补丁，治的病是「把一整句原文压进一个固定大小的向量」——句子一长，那个向量就装不下、信息丢失（上篇我们管它叫「便签」）。注意力让解码器每写一个词都回头看一遍原文、按需取料，绕开了这个向量。小问：那个被注意力打补丁的「老骨架」本身叫什么？那个「便签」在论文里有个更好听的名字，又叫什么？答案就是本篇的主角。

关于这篇论文《Sequence to Sequence Learning with Neural Networks》，2014 年发表于机器学习顶会 NeurIPS。作者是 Google Brain 的 Ilya Sutskever、Oriol Vinyals、Quoc Le——其中第一作者 Ilya Sutskever，后来是 OpenAI 的联合创始人兼首席科学家。它和上一篇 Bahdanau 几乎同在 2014 年：一个把骨架立起来，一个发现骨架的漏洞、打上补丁。

先说清这篇论文要解决什么。神经网络擅长一种活儿：给它固定大小的输入、吐出固定大小的输出——比如读一张 28×28 的图片、答「是不是猫」。可语言偏偏不是这样。

把英语「I am fine」翻成法语「je vais bien」，碰巧 3 个词对 3 个词；换一句，输入 5 个词可能翻出 8 个词。输入多长、输出多长，事先都不知道，而且两边还不相等。这种「不定长进、不定长出」，正是当时神经网络的死角——它要求你把维度钉死，可翻译这件事根本钉不死。这就是 2014 年摆在桌上的难题：怎么让一个网络，把任意长的一串词，变成另一种语言里任意长的一串词。

Sutskever 他们的答案干净得出奇：别用一个网络硬扛，用两个。前一个叫编码器（encoder），专门负责「读」；后一个叫解码器（decoder），专门负责「写」。中间用一样东西交接。

编码器是一个LSTM（一种能记住较长距离信息、不容易「读了后面忘了前面」的循环网络），它把原文一个词一个词读到尾，读完后，把整句话的意思压成一个固定长度的向量。这个向量，就是俗称的「思想向量（thought vector）」——你可以理解成：一个人读完一整段外文、合上书，脑子里留下的那一个「念头」。

然后解码器（另一个 LSTM）登场。它盯着这个念头，一个词一个词往外写译文，每写一个都参考前面已写出的词，直到吐出一个特殊的「句子结束」标记才收笔。读和写彻底分工，长度也就自由了：原文几个词不绑死译文几个词，两边各管各的。这套「编码器—解码器」结构，从此成了序列生成的通用骨架，沿用至今。

论文里最好玩的，是一个看着像「乱来」的操作。他们发现：把源句子的词从头到尾倒过来输进编码器（把「a b c」喂成「c b a」），译文质量明显变好——目标句子一个字不动，只把输入倒一下，就有实打实的提升。

为什么？论文给的解释是：倒序之后，源句开头的词，离译文开头的词在「时间上」更近了。翻译往往是开头对开头、结尾对结尾，倒序让这些最该挂钩的词之间路径变短，于是产生很多「短期依赖」，梯度更好传、模型更容易学。一个几乎零成本的小动作，换来明显收益——这正是深度学习常有的「玄学时刻」：确实有效，却要事后才说得清为什么。

空说没用，论文拿数据说话，赛场是公认硬核的WMT'14 英语→法语翻译。衡量标准是BLEU 分（翻译质量的自动评分，越高越好）。

结果：他们的 LSTM 系统拿到BLEU 34.8，超过了当时主流的短语统计机器翻译（SMT）系统的 33.3；如果再让 LSTM 去给统计系统给出的候选译文重新排序，还能进一步冲到36.5。要知道，统计机器翻译是被工业界打磨了十几年的成熟方案，而这套神经网络几乎从零开始、端到端训练，第一次出手就把它打平、甚至超过。论文还特意点一句：LSTM 处理长句子也没怎么吃力——这在当时相当反直觉。

把镜头拉远，这篇论文的位置很清楚：它立起了「编码器—解码器」这个骨架，证明神经网络能端到端做「序列到序列」的任务。但它也埋下一个隐患——不管原文多长，全句信息都得挤进那一个思想向量。句子一长，向量就装不下，前面的信息被挤掉。

于是历史接着往下走，正好串起这个系列的前两篇：2014 年 seq2seq 立骨架（本篇）→同样 2014 年，Bahdanau 发现那个向量是瓶颈，给它加上「注意力」补丁，让解码器回头看原文、不再只靠一个向量（上一篇 AI圣经02）→2017 年 Transformer 干脆把 RNN 整个扔掉，只留注意力（AI圣经01）。一句话串起来：压缩瓶颈 → 注意力补丁 → 注意力即一切。

而这套 2014 年为翻译写下的「一个读、一个写」的接力姿势，今天你天天在用：ChatGPT、DeepL、各种 AI「输入一段、输出一段」，骨子里都是它的后代。第一作者 Ilya Sutskever 也正是从这篇出发，一路走到 OpenAI 首席科学家——一篇为翻译写的论文，立下了今天整个生成式 AI 的基本姿势。

主动回忆一遍才记得住（这点「小难度」是故意的）。三问，想好再看答案：

答案 1.编码器（一个 LSTM）负责「读」，把整句原文压成一个向量；解码器（另一个 LSTM）负责「写」，从这个向量逐词生成译文。2. 思想向量＝编码器把整句话压成的那一个固定长度向量，是读与写之间的交接物；隐患是句子一长，全部信息挤进一个向量就装不下、信息丢失——这正是下一步「注意力」要解决的瓶颈。3. 倒序让源句开头的词离译文开头的词在时间上更近，产生很多短期依赖、路径变短，梯度更好传、模型更容易学（目标句不动，只倒输入）。

只记一句：seq2seq 在 2014 年用「一个网络读、一个网络写」，第一次让神经网络端到端做翻译，立下了今天大模型「一段进、一段出」的骨架。它压出来的那个「思想向量」既是钥匙、也是瓶颈，于是引出了注意力、再引出 Transformer。现在你可以把「大模型一段进一段出的骨架是怎么来的」讲给任何一个好奇的朋友了。

想再深入一点 seq2seq 的基本部件是 LSTM，把它讲得最透、全是图的是 Christopher Olah 的《Understanding LSTM Networks》（搜标题即得）。顺历史线往下走，下一篇AI圣经04我们往更底层补一块地基——word2vec：词是怎么变成一串数字、让机器算得出「国王 − 男人 + 女人 ≈ 女王」的。 seq2seq 这个「一个读、一个写」的接力结构，你还在别的 AI 产品里见过它的影子吗？评论区聊聊。

← 上一篇：AI内容别乱发！这些操作已触法律底线下一篇：广东AI人才告急：符合条件者最高领3120元补贴！立即报名人工智能训练师认证培训 →