3 月 21 日,GTC AI 大会,黄仁勋对线 位 Transformer 框架论文作者。他们认为,AI 行业被困在了六七年前的原型上,这个世界需要更好的模型。
“我认为世界需要比 Transformer 更好的东西。我觉得现在与六七年前的情况相似。”“所以尽管原始模型可能不是现在可拥有的最强大的东西,但我们仍然固守在原来的模型上。”
Transformer 架构的诞生源于自然语言处理(NLP)领域的迫切需求。在过去,传统的循环神经网络(RNN)和卷积神经网络(CNN)在处理序列数据时面临一些挑战。RNN 虽然能够捕捉序列中的依赖关系,但由于其顺序处理的方式,导致计算效率低下,并且难以处理长距离依赖。而 CNN 虽然可以并行计算,但在处理变长序列时不够灵活。
为了克服这些挑战,2017 年,谷歌的 8 名研究人员联合发表了名为《你所需要的是注意力》(Attention Is All You Need)的论文,并在这篇论文中提出了 Transformer 架构,它能真正地解决 RNN 和 CNN 在处理序列数据时存在的问题。
Transformer 采用了自注意力机制(Self-Attention Mechanism),使得模型能够同时关注序列中的所有位置,从而捕捉长距离依赖关系。此外,Transformer 还采用了多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)等技术,进一步提高了模型的性能。这项具有划时代意义的技术变革彻底改变了技术发展路径。技术背后,这 8 位一同提出该理论的研究人员有的已经离开了谷歌,有的已经创办了自己的公司或是加入了新团队。
近日,国外知名杂志《连线》的资深编辑史蒂文利维(Steven Levy)近期撰写了一篇文章,为我们揭秘了 Transformer 架构诞生背后的故事。
他们偶然相遇,迷上了共同的探索目标,最终设计出近代历史上最具突破性的关键技术——Transformers。
2018 年春季发表的一篇科学论文《Attention Is All You Need》共有八位作者,他们都是来自谷歌的研究人员,不过当时其中一人已经离开了公司。而最资深的贡献者 Noam Shazeer 手捧文章初稿却颇感讶异,因为他的名字出现在了第一位。面对各位合作伙伴对自己贡献的肯定,他坦言“我实在没有想到”。
论文作者的姓名排序其实很有讲究,谁在前谁在后可谓相当重要。特别是在这篇奠定了现代 AI 的关键文章中,每位参与者都凭借自己的努力给整个科技史竖起不朽的丰碑。而在论文终于定稿之后,大家决定“颠覆”按贡献度排名的惯例,添加标注强调每位作者都做出了“彼此相当的贡献,排名不分先后”。文章在截止日期前被发给知名 AI 会议,并旋即引发了如今人们耳熟能详的这场技术革命。
值此七周年之际,这篇论文已经拥有了传奇般的历史地位。作者们从神经网络这项蓬勃发展且不断改进的技术入手,打造出一套极为强大的数字系统,该系统的输出就如同是外星智能的产物。这种架构被命名为 Transformer,是当今一切令人兴奋的 AI 产品背后的秘密武器,其中也包括 ChatGPT、Dall-E 和 Midjourney 等重量级成果。Shazeer 开玩笑说,早知道这篇文章会拥有这样的份量,那当初就该“认真考虑一下作者排序”。现在这八位作者都成了技术圈的名人,在文章署名中位列第五的 Llion Jones 表示“现在会有人要求跟我合影,就是因为我是论文的作者之一!”
虽然并非论文作者,但身为全球最知名的 AI 科学家之一,Geoffrey Hinton 表示“如果没有 transformers,我觉得 AI 技术不可能达到目前的高度。”在他看来,我们生活在一个翻天覆地的新时代,OpenAI 等厂商构建起的系统在很多方面几乎可与人类比肩,有时甚至已经成功超越了人类。
文章发表之后,这八位作者先后离开了谷歌。与其他数百万科技从业者一样,他们仍在以某种方式使用自己在 2017 年创造的成果开发更多 AI 系统。我有幸与这位八位 transformers 元老面对面交流,希望拼凑出那个开天辟地的重要时刻,了解他们如何依托人类的思维创造出拓展未来的智能机器。
Uszkoreit 的父亲是著名计算语言学家 Hans Uszkoreit。上世纪 70 年代末,Hans 还是一名高中生,并因为抗议苏联入侵捷克斯洛伐克而在祖国东德被判监禁 15 个月。获悉之后他逃往西德,在柏林学习计算机和语言学。Jakob 出生时他们举家迁往美国,在位于加利福尼亚州门洛帕克一家研究机构 SRI 的 AI 实验室工作。后来他们全家又迁回德国,Jakob 也在那里接受了大学教育。
Jakob 对于语言学兴趣不大,并在研究生阶段前往谷歌位于山景城的总部实习,并加入该公司的翻译小组。看来 Uszkoreit 家的人终究摆脱不了语言这个体系。在放弃继续攻读博士学位后,Jakob 于 2012 年加入了谷歌的一支系统开发团队,其目标就是搜索页面内容并直接回答用户提问,避免再跳转至其他页面。当时苹果刚刚推出了 Siri,这是一款虚拟助手,号称能在自然顺畅的对话中直接给出答案。谷歌高层从中嗅到了巨大的竞争威胁:Siri 可能会吞噬他们的搜索流量。也正因为如此,Uszkoreit 所在的这支新团队开始受到重视。
Uszkoreit 表示,“这种恐慌实在没有必要。”Siri 从未真正威胁过谷歌,但他很高兴能有机会深入研究计算机与人类话语之间的神秘联系。当时,曾经如一潭死水般的循环神经网络突然开始超越其他 AI 工程学方法。这类网络由多个层组成,信息在各层之间不断传递以识别最佳响应。神经网络在图像识别等领域取得了巨大胜利,AI 技术的复兴也在一夜之间成为现实。于是谷歌疯狂调整员工队伍以应用这些技术,并希望系统能够生成与人类相当的响应能力——包括自动补全电子邮件中的句子,或者创建出相对简单的客服聊天机器人。
但这个方向很快就走进了死胡同。循环神经网络很难解析较长的文本片段。我们以这样一段话为例,“Joe 是名棒球运动员,在吃了一顿丰盛的早餐后,他去球场并打出了两记安打。”要想理解“两记安打”,语言模型必须记住前面“Joe 是名棒球运动员”的部分。如果按人类的语言处理习惯讲,那就是需要在这里集中注意力。当时公认的解决方案是所谓“长短期记忆”(LSTM),这种技术创新允许语言模型处理更大、更复杂的文本序列。但计算机仍会严格按照顺序处理这些序列(也就是按序排列的单词),且往往无法把握段中稍后可能出现的上下文线索。Uszkoreit 解释称,“当时使用的方法就像是创可贴,基于是在缝缝补补,没办法理解能够真正发挥规模化作用的正确素材。”
于是 2014 年左右,他开始研究一种前所未有的方法,并将其称为自注意力(self-attention)机制。这种网络可以引用段落内的任意其他部分来理解单词含义,这些其他部分将作为上下文以阐明单词意图并帮助系统输出更优质的翻译结果。他指出,“这实际上是在通盘思考,并提供一种行之有效的方法,可以同时关注多条输入,再以有选择性的方式提取出某些内容。”尽管 AI 科学家们一直谨慎行事,不希望把“神经网络”的表述跟生物学大脑的实际工作方式相混淆,但 Uszkoreit 却信心满满,似乎认定自注意力与人类的语言处理方式确有共性。
Uszkoreit 认为自注意力模型应该比循环神经网络更快、星空体育app下载更高效。它处理信息的方式也更适合那些为支持机器学习热潮而大量产出的并行处理芯片。自注意力模型不再使用线性方法(按固定顺序查看各个单词),转而选择了并行方法(一次观察一大堆单词)。Uszkoreit 怀疑,只要操作得当,单凭自注意力就能带来更好的文字理解和生成效果。
但当时并不是人人看好这种颠覆性的研究方向,包括 Uszkoreit 的父亲。就在儿子为谷歌工作的几年中,老 Hans 拿下了两项谷歌学院研究奖。Jakob Uszkoreit 回忆道,“当时人们普通对此感到惊讶,因为它抛弃了一切原有神经架构。”放弃循环神经网络?这简直是异端!“从我跟父亲在餐桌上的沟通结果来看,咱们爷俩的观点着实是大相径庭。”
但 Uszkoreit 还是成功说服了几位同事参与自注意力实验。初步工作带来了希望,于是他们在 2016 年发表了一篇相关论文。Uszkoreit 希望进一步推动研究,毕竟初期的团队实验只使用到数量极小的文本,但合作者们纷纷表示没有兴趣。就如同普通玩家赚点小钱就想离开赌桌一样星空体育app下载,首批合作者开始尝试把这些初步发现转化成应用成果。Jakob 指出,“自注意力确实能行。那篇论文的研究人员也对获取回报,并将成果部署在谷歌各个业务领域的前景感到兴奋,包括搜索乃至广告等。从种种方面来看,这都是一场惊人的成功,但我并不想就此止步。”
在 Uszkoreit 看来,自注意力完全可以做得更多、更好。于是他开始向所有感兴趣和不感兴趣的同事推销自己的理论,并在园区内 1945 号楼的白板上详尽阐述了自己的技术愿景。
2016 年的一天,Uszkoreit 和一位名叫 Illia Polosukhin 的科学家在谷歌园区的咖啡馆里共进午餐。Polosukhin 出生于乌克兰,已经在谷歌工作了快三年。他被分配到了一支专项团队,探索如何在搜索字段中直接就查询问题给出答案。当时项目进展得不太顺利。Polosukhin 表示,“要在上直接回答问题,相应的底层技术必须性能超高且成本低廉,毕竟整个回答窗口就只有几毫秒。”就在 Polosukhin 发泄着满腹牢骚时,Uszkoreit 毫不犹豫地给出了解决办法,“他建议说,为什么不试试自注意力呢?”
当时,Polosukhin 经常一位名叫 Ashish Vaswani 的同事合作。Vaswani 出生于印度,但成长阶段主要生活在中东,曾经前往南加州大学求学,并在校内的精英机器翻译小组中拿下了博士学位。之后他搬到山景城并加入了谷歌,成为“Google Brain”新部门的一员。根据他的描述,Google Brain 是一个“激进派团体”,坚信“神经网络将更新人类的理解方式”。但他的野心不止于此,希望参与到更宏大的项目当中。他的团队在 1965 号楼,跟 Polosukhin 语言团队所在的 1945 号楼相邻。在听说了自注意力技术之后,他马上表现出兴趣并同意放手一试。
Uszkoreit 指出,大家之所以在起步阶段选择了“transformers”这个名字,是因为此项机制能够转变接收到的信息,让系统尽可能从中提取更多理解信息,或者至少要实现类似于理解的效果。此外,Uszkoreit 还记得孩童时代把玩孩之宝“变形金刚”玩具的美好时光,其原词正是 transformers。“我小时候就有两个变形金刚玩具”,所以文件最后选择以六位变形金刚角色在山间相互开炮的图片收尾。
2017 年初,Polosukhin 离开谷歌创办了自己的公司。但与此同时,新的合作者也陆续加入。一位名叫 Niki Parmar 的印度工程师当时刚刚移居美国,此前在某美国软件公司的印度分部工作。她于 2015 年获得南加州大学硕士学位,还收到多家科技企业的录用函。她最终选择了谷歌,并在入职后马上参与 Uszkoreit 团队,致力于研究如何利用模型变体改进谷歌搜索服务。
另一位新成员则是 Llion Jones。他在威尔士出生长大,而且热爱计算机那种“非常规”的运行逻辑。他在伯明翰大学学习 AI 课程,并将自己一以贯之的好奇心倾注在了神经网络身上。他于 2009 年 7 月拿下硕士学位,但在经济危机期间找不到工作,所以几个月间只能靠救济金生活。星空体育app下载他曾在当地一家公司找到过工作,之后靠着半申请半恳求的方式拿到了谷歌的录用资格。他随后加入谷歌研究院,顶头上司正是 Polosukhin。有一天,Jones 从一位名叫 Mat Kelcey 的同事那听说了自注意力的概念,并随后加入 transformers 团队。(后来 Jones 又认真向 Kelcey 介绍过 transformers 项目,但对方并不买账。Kelcey 回忆道,「我也不确定这到底能不能行,而这可谓是我一生中最大的错误判断。」
Transformers 项目也吸引到了其他正尝试改进大语言模型的 Google Brain 研究人员。第三波参与者包括波兰出生的理论计算机科学家 Lukasz Kaiser 和他的实习生 Aidan Gomez。Gomez 出生于加拿大安大略省的一处小农庄,每年春天他的家人都在当地采摘枫树糖浆。在多伦多大学读在三时,他“深深迷上”了 AI,并加入 Geoffrey Hinton 实验室的机器学习小组。他开始主动联系谷歌那些发表过有趣论文的员工,申请帮助对方扩展研究范围。Kaiser 回应了他的请求并邀请他参加实习。但直到几个月后,Gomez 才意识到这些实习岗本来是面向博士生的,压根不该对他这样的本科生开放。
Kaiser 和 Gomez 很快意识到,自注意力对于他们正尝试解决的问题来说,似乎确实是种前途光明、也更为激进的解决方案。Gomez 表示,“我们当时还就是否应该合并这两个项目进行过深入对话”,并最终决定合二为一。
当时 Transformer 团队正着手开发一套自注意力模型,希望将文本从一种语言翻译成另一种语言。他们使用名为 BLEU 的基准测试来衡量其性能,本质上就是把机器输出结果与人工翻译内容进行比较。而且从起步阶段,他们的新模型就表现良好。Uszkoreit 回忆称,“也就是说,我们终于从连概念验证都没有,迅速推进到了与最强 LSTM 相当的程度。”但他也承认与这种长短期记忆方案相比,自注意力模型“也没能做得更好”。
团队由此进入了平台期,直到 2018 年的一天,Noam Shazeer 偶然听说了他们的项目。Shazeer 是谷歌公司的资深员工(早在 2000 年就加入谷歌),并凭借对谷歌早期广告系统的贡献而成为公司内的传奇人物。Shazeer 研究深度学习已经有五年之久,最近开始对大语言模型产生了兴趣。但这些模型距离他所期待的流畅开展对话还差得很远。
据 Shazeer 回忆,当时他穿过 1965 号楼的一条走廊里,正好经过 Kaiser 的工作区。他被那里激烈的讨论声所吸引,“我记得 Ashish 正在讨论该如何使用自注意力,Niki 对此非常兴奋。我突然想到,这似乎是个好主意,这群有趣且聪明的员工正在做未来可期的探索。”再加上原先的循环神经网络实在“令人恼火”,所以 Shazeer 决定“那咱们就试试自注意力!”
Shazeer 的加入至关重要。Uszkoreit 表示,“像自注意力这样的纯理论或者直觉机制,在实际部署时往往需要非常认真的规划,而这种能力只掌握在少数经验丰富的「魔术师」手中。这不是技术,而更像是种艺术。”Shazeer 立刻开始施展他的魔法,决定编写自己的 Transformer 项目代码版本。他表示,“我保留了他们的基本思路,然后按自己的理解完成了开发。”他偶尔会向 Kaiser 提几个问题,但大多数情况下,他“只是默默开发一段时间,然后回头检查能不能起效。”用团队成员们的话来说,凭借着一系列“神奇”且“令人眼花缭乱”的操作,Shazeer 成功把系统提升到了新的水平。
Gomez 指出,“于是冲刺阶段终于到了。”每个人都充满动力,希望能在 5 月 19 日全球最大的 AI 盛会、也就是计划于 12 月召开的神经信息处理系统大会的论文投递截止日期之前,把自己的心血提交上去。随着硅谷送走寒冬、迎来暖春,实验的步伐也一再加快。他们测试了两种 Transformer 模型:其一只经过 12 个小时的训练,另一种更强大的 Big 版本则接受了为期三天半的训练。其功能非常简单:尝试将英语内容翻译成德语。
这套基础模型的表现优于全部竞争对手,Big 在 BLEU 测试中的得分直接打破了原有纪录,且计算效率也有提升。Parmar 指出,“我们的总耗时比其他人都少,而且这还只是开始,后续的性能测试又带来一个个破纪录的分数。”在听到这个消息后,Uszkoreit 打开了自己收藏多年的一瓶香槟。
投入截止日期前最后两周是段疯狂的时光,尽管名义上团队成员们仍在 1945 号楼里办公,但他们已经把大部分时间都花在了 1965 号楼里——理由也很简单,那边咖啡机的出品更好喝。身为实习生的 Gomez 也全身心投入到了这波调试狂潮当中,还为论文制作了可视化图表,“大伙完全就是不眠不休”。当然还有此类项目中常见的消融实验,即把某些部分拆出来,看看余下的部分还能不能继续工作。
Gomez 回忆道,“不同方法和模块间可以构成千千万万种组合,我们得想办法证明哪些有效、哪些无效。唯一的办法就是逐个尝试。为什么模型会表现出某种反直觉的效果?哦,那是因为我们进行正确掩码。好了?那就进行下一步。总之,transformers 中的所有组件都经历过这种节奏极快的迭代试验与输出纠错。”Jones 则补充称,在 Shazeer 那强大实现能力的帮助下,消融实验最终产生了“极简形式的成果,Shazeer 简直是个师。”
Vaswani 则分享道,有天晚上团队正在写论文,而他因为劳累而瘫倒在了办公室的沙发上。就在盯着沙发后的窗帘时,他被面料上的图案震惊了——在他眼中,这就像一个个突触与神经元。Vaswani 激动地揪过一旁的 Gomez,喊叫着他们的成果将超越传统机器翻译。“最终,就像人脑一样,所有这些模态——包括语音、音频、视觉——都将被统一在单一架构之下。我有一种强烈的预感,我们研究的是真正具有普适性的东西。”
但在谷歌高层,很多人认为 transformers 只是又一个有点亮点的 AI 项目。我询问几位团队成员,他们的老板有没有把他们召集起来介绍项目的最新进展,答案是很少。但 Uszkoreit 对此不以为意,“我们自己知道这可能是件大事,所以我们才急于把论文赶出来,并且在结尾处对后续工作做出了展望。”
而文章结尾的展望也正确宣告了这项技术的前进方向——transformers 模型将应用于几乎所有形式的人类表达。他们写道,“我们对基于注意力的模型的未来前景感到兴奋。我们计划将 transformers 扩展到文本之外的更多输入与输出模态中”,包括研究“图像、音频与视频”。
距离投稿截止日期还剩下几天,Uszkoreit 意识到他们需要为论文起个标题。Jones 强调团队已经彻底否决了当时行业公认的最佳实践,特别是 LSTM,同时全面转向注意力机制。正好披头士乐队有首名曲叫《All You Need Is Love》,所以不妨就把文章定名为《Attention Is All You Need》。
Jones 坦言,“我是英国人,所以只花了几秒钟就想到了这个梗。意外的是大家都觉得可以。”
团队成员们继续收集实验结果,一直忙到截止日当天。Parmar 表示,“直到我们提交文章的五分前,英语译法语的得分才刚刚出来。我当时坐在 1965 号楼的小餐吧旁,一行行看着最新的分数。”不到两分钟后,这篇文章就被投递了出去。
与几乎任何一家科技企业一样,谷歌很快就为这项工作申请了临时专利。其目的不是为了阻止其他人使用这些成果,而是出于自我保护的专利组合。(毕竟谷歌一直秉持着「技术进步,谷歌受益」的原则。)
大会评审员的意见很快被发回了 transformer 研究团队这边。Parmar 还记得“一条很积极,一条非常积极,还有一条说「似乎不错」。”总之,文章顺利被接收并入选了论文海报展。
到 12 月份,这篇论文已经引发了广泛轰动。12 月 6 日,团队成员们在长达四个小时的会议上面对着人头攒动的到场科学家。作者们一直聊到声音嘶哑,直到当天晚上 10 点 30 分会议结束时,人们仍留在现场久久不愿离去。Uszkoreit 提到,“于是保安不得不护送我们先行离开。”而对他来说,最值得铭记的时刻可能就是计算机科学家 Sepp Hochreiter 现身会场并高度赞扬这份工作——作为长短期记忆机制的共同发明者,星空体育app下载Hochreiter 的赞许就是最高肯定。从这一刻起,transformers 就是 AI 技术储备中最新、最有力的工具。
但 transformers 并没有立刻占领整个世界,甚至在谷歌内部也没有马上普及。Kaiser 回忆道,在论文发表前提下,Shazeer 曾向谷歌高管提议放弃原有搜索索引机制,利用 transformer 训练一套巨大的网络,从根本上改变谷歌的信息组织方式。其实在当时,就连 Kaiser 自己也觉得这个主意太过荒谬。可现在哪怕最保守的观点,也认为这项改革将只是时间问题。
在此期间,一家名叫 OpenAI 的初创公司行动更快,明显占得了先机。在论文发表后不久,OpenAI 公司首席研究员 Ilya Sutskever(他在谷歌工作期间就接触过 transformers 团队)建议科学家 Alex Radford 认真研究这个方向,最终成果就是首款 GPT 产品。正如 OpenAI 公司 CEO Sam Altman 在去年的采访中所言,“在 transformers 论文发表时,我感觉谷歌那边还没有真正意识到它的深远影响。”
公司内部的情况确实更为复杂。Uszkoreit 解释道,“对我们自己来说,transformers 显然可以发挥一些神奇的功效。所以大家可能会问,谷歌为什么没在 2018 年推出 ChatGPT?实际上,一切顺利的线 也是有可能的。而且人们最大的疑问在于,既然谷歌已经看到了 transformers 的魔力,为什么会不采取任何行动?这个问题的答案其实相当复杂。”
不少技术评论家都指出,谷歌已经从当初以创新为中心的精锐力量蜕变成了只注重利润的官僚机构。Gomez 在接受英国《英国时报》采访时就提到,“他们并没有推动技术现代化,也压根没有实际采用。”对于谷歌这样一家长期领先行业并在数十年间赚取到巨额利润的大厂来说,这样的迟钝确实难以理喻。但也必须承认,谷歌确实从 2018 年起曾尝试将 transformers 集成至产品当中,一马当先的就是旗下翻译工具。同年,谷歌还推出基于 transformer 的 BERT 语言模型,并于次年起开始将其应用于搜索业务。
但与 OpenAI 的巨大飞跃和微软将基于 transformers 的系统大胆整合进产品线的举措相比,谷歌的这些小打小闹实在太过儿戏。去年,我曾问起谷歌 CEO Sundar Pichai,为什么他的公司没有率先推出像 ChatGPT 这样的大语言模型。他认为在当时的情况下,谷歌觉得让其他企业走在前面更为有利。“我不太确定 transformers 到底能不能真正起效。而在其他人把路走通之后,我们也可以迅速跟进并做更多尝试。”
Kaiser 是唯一没有选择创业的作者,他加入了 OpenAI,并成为新技术 Q* 的发明者之一。Altman 去年曾表示,Q* 技术将“揭开无知的面纱,推动发现的前沿。”当我在采访中想就此事询问 Kaiser 时,OpenAI 的公关人员几乎马上跳起来提醒他别乱讲。
那现在的谷歌会怀念这群曾经的贡献者吗?当然,但考虑到他们大多另立门户建立了自己的 AI 初创企业,所以似乎也没有那么怀念。Pichai 还特别提醒我,不光是谷歌 transformers 团队存在严重的人才流失,业界宠儿 OpenAI 同样无法幸免:“AI 领域确实非常非常有活力。”但谷歌至少可以吹嘘说他们提供了支撑 AI 落地的企业环境,鼓励员工们追求各种不那么传统的思路。Parmar 也承认,“从很多方面来讲,谷歌都是遥遥领先——他们会投资于正确的人才,创造出供我们探索和挑战极限的环境。其实没有第一时间跟进技术实践也可以理解,毕竟谷歌面临的风险要比一般人想象中大得多。”
如果没有谷歌的环境,也就不会出现 transformers。论文作者们不单是谷歌员工,而且都聚到同一处办公室工作。而走廊上的偶遇和午餐时不经意的对话共同促成了这个重要时刻。谷歌的文化多样性和包容态度也发挥着关键作用:八位作者中,有六位出生在美国以外;余下的两人则分别是持有绿卡、在加州暂时居住的德国人,和一位随家人逃离迫害的二代移民。
Uszkoreit 在伯林办公室中接受采访时提到,创新必须要依托于合适的条件。“良好的环境能让人们在人生的正确阶段对正确的事物产生浓厚兴趣。所以如果你恰好具备这种理想环境,正在面对正确的问题,再加上一点运气,那么奇迹就会从天而降。”
最后不得不提 Uszkoreit 和他老父亲之间的趣事。前文提到,Uszkoreit 和他的父亲曾在餐桌上起过争执,但老 Hans 如今也已联合创立了一家大语言模型开发公司,使用的当然正是 transformers 技术。