Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
程序员客栈 2023-06-19 22:51:47


(相关资料图)


新智元报道

编辑:桃子 好困【新智元导读】Transformer,6岁了!2017年,Attention is All You Need奠基之作问世,至今被引数近8万。这个王者架构还能继续打多久?2017年6月12日,Attention is All You Need,一声炸雷,大名鼎鼎的Transformer横空出世。它的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还成功跨界CV,给AI界带来了意外的惊喜。到今天为止,Transformer诞生6周年。而这篇论文被引数高达77926。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力,而是将其推向极致。第一篇注意力论文是在3年前(2014年)发表的。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。它是「RNN+上下文向量」(即注意力)的组合。或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机。相反,两者都为了解决一个狭隘而具体的问题:机器翻译。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译。3. Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了。那一年的NeurIPS上有3篇最佳论文。截止到今天,它们加起来有529次引用。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的,但影响力没有那么大。一个反例是ResNet。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧,得到了正确的认可。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样,很少有人能预见自2012年以来深度学习的海啸。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。

你只需要注意力!

Transformer诞生之前,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。然而,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年,8位谷歌研究人员发表了Attention is All You Need。可以说,这篇论文是NLP领域的颠覆者。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲,Transformer由四部分组成:输入、编码器、解码器,以及输出。输入字符首先通过Embedding转为向量,并加入位置编码(Positional Encoding)来添加位置信息。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征,最后输出结果。如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。然后,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。接着,将这个步骤对所有单词并行重复多次,依次生成新的表征。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征。2019年,谷歌还专门为其申请了专利。自此,在自然语言处理中,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。然而,Transformer燃爆的不仅是NLP学术圈。

万能Transformer:从NLP跨到CV

2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言,还涉及非常不同的输入和输出,如图像和视频。没错,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域。甚至,当时许多人狂呼Transformer又攻下一城。自2012年以来,CNN已经成为视觉任务的首选架构。随着越来越高效的结构出现,使用Transformer来完成CV任务成为了一个新的研究方向,能够降低结构的复杂性,探索可扩展性和训练效率。2020年10月,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类。值得一提的是,ViT性能表现出色,在计算资源减少4倍的情况下,超过最先进的CNN。紧接着,2021年,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion,同样基于Transformer架构,再次颠覆了AI绘画。以下,便是基于Transformer诞生的模型的整条时间线。由此可见,Transformer是有多么地能打。2021年,当时就连谷歌的研究人员David Ha表示,Transformers是新的LSTMs。而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK47。无论我们如何努力用新的东西来取代它,它仍然会在50年后被使用。Transformer仅用4年的时间,打破了这一预言。

新硅谷「七叛徒」

如今,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了?Jakob Uszkoreit被公认是Transformer架构的主要贡献者。他在2021年中离开了Google,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。到目前为止,他们已经筹集了2000万美元,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs。可以说,AdeptAILabs正处在高速发展的阶段。目前,公司不仅已经筹集了4.15亿美元,而且也估值超过了10亿美元。此外,团队规模也刚刚超过了40人。然而,Ashish却在几个月前离开了Adept。在Transformers论文中,Niki Parmar是唯一的女性作者。她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs。不过,Niki在几个月前也离开了Adept。Noam Shazeer在Google工作了20年后,于2021年底离开了Google。随后,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI。虽然公司只有大约20名员工,但效率却相当之高。目前,他们已经筹集了近2亿美元,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI。经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时,公司筹集到的资金也即将突破4亿美元大关。Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol。目前,NEAR估值约为20亿美元。与此同时,公司已经筹集了约3.75亿美元,并进行了大量的二次融资。现在,只有Llion Jones还在谷歌工作。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」

网友热评

走到现在,回看Transformer,还是会引发不少网友的思考。AI中的开创性论文。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃。这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响。这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的。哇,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。在我攻读博士期间,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移,它们最终会改变世界。我们不应该为奖项而奋斗,而应该专注于有影响力的研究!参考资料:

https://twitter.com/DrJimFan/status/1668287791200108544

https://twitter.com/karpathy/status/1668302116576976906

https://twitter.com/JosephJacks_/status/1647328379266551808

Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界

2023-06-19 22:51:47

历数台剧女王杨谨华惊艳瞬间!错失金钟奖最多性感女神

2023-06-19 21:51:05

不发微信能知道被删除的人吗_不发微信能知道被删除

2023-06-19 20:55:17

焦点资讯:英国首次允许无人驾驶汽车商用各国政策利好不断AI大模型为产业按下加速键

2023-06-19 20:36:57

欧洲推进人工智能监管

2023-06-19 19:10:53

世界热推荐:print screen sysrq是什么意思_print screen键是什么意思

2023-06-19 18:44:45

焦点快报!2023年上海中考顺利结束,6月21日开始网上志愿填报

2023-06-19 18:07:50

微资讯!电脑版网易云音乐听歌识曲在哪_pc版网易云音乐怎么听歌识曲

2023-06-19 17:55:42

货单号查物流_怎么查物流的货到哪了_当前焦点

2023-06-19 16:58:58

热讯:屲仚屳冚怎么读? 仚屳屲冚→你认识吗?我们一起涨知识

2023-06-19 16:41:55

当前速递!跳空缺口是什么意思

2023-06-19 16:20:45

天天播报:全球首款4K Xbox 投影仪:售价约11456元!

2023-06-19 15:45:38

2023京津冀网球俱乐部团体积分赛激战天津

2023-06-19 15:17:11

世界新资讯:国家话剧院现实主义大戏《初生》首演 群星演绎民族企业精神

2023-06-19 15:07:05

宁夏隆德 让村规民约和居民公约浸润民心

2023-06-19 14:16:53

速看:消费型的重疾险好吗?内含消费型重疾险排名榜

2023-06-19 13:53:36

全球播报:qq勋章怎么看2021_2021QQ勋章在哪

2023-06-19 13:00:02

生态持续向好 北京打造生物多样性之都

2023-06-19 12:22:57

环球快看点丨实探!深铁龙岗“双子星”来了,值得等待吗?

2023-06-19 12:04:39

博物馆迎来“暑期热”,透明OLED给你不一样的体验|世界热讯

2023-06-19 11:24:13

中消协将在全国范围内开展“反对强制关注公众号”消费监督工作-每日关注

2023-06-19 10:58:31

天天快播:华如科技:6月16日融资买入1236.61万元,融资融券余额1.04亿元

2023-06-19 10:53:50

湖南发布暴雨黄色预警,这些地方注意防范

2023-06-19 10:26:45

另辟蹊径突围新能源赛道,宁波“再造一个汽车产业”

2023-06-19 09:58:09

马文才与祝英台现实中在一起(马文才你欠抽)

2023-06-19 09:46:12

天天热文:粉水晶手链寓意_粉水晶

2023-06-19 09:34:42

八分钟的温暖txt_八分钟的温暖txt|世界滚动

2023-06-19 09:36:21

菲律宾最活跃火山持续喷发致2万人撤离-全球观察

2023-06-19 09:18:45

二人牵手是知音的答案_二人牵手是知音

2023-06-19 09:07:46

北京9条滨水骑行线路你打卡了吗?通勤健身来“慢”游

2023-06-19 08:35:48

骗了我们22年!原来她就是关晓彤亲生母亲,难怪她能红透大江南北 全球速看

2023-06-18 21:45:41

联想a802t(联想a820论坛)

2023-06-18 20:59:29

又一手机巨头入局, OPPO能否在健康赛道上后发先至?|天天播资讯

2023-06-18 20:11:29

环球百事通!从一颗生豆到一杯咖啡:江苏昆山的醇香“大咖”梦

2023-06-18 19:59:05

天天信息:东山岛住宿(东山岛别墅住宿预订)

2023-06-18 19:02:31

蓝黄橙三色预警齐发,这些地方注意防范山洪灾害

2023-06-18 18:18:51

礼物开箱中国boy,中国boy代表色

2023-06-18 17:21:52

21-18,21-19!陈雨菲两局险胜西班牙一姐,打破长达一年冠军荒

2023-06-18 17:00:16

播报:垃圾分类信息简报 信息的分类有哪几种

2023-06-18 16:20:57

时讯:美非裔奥运冠军死于分娩 美媒:孕产妇死亡率仍有巨大种族差异

2023-06-18 15:54:01

无锡滨湖牵手武汉大学开展招才引智活动 全球新要闻

2023-06-18 15:10:46

夏天到了,给数据中心泼点“冷水”

2023-06-18 13:14:57

今日热搜:韦世豪上场 国足几比0?左路属于林皇!徐新这么踢,不如考虑高天意+李提香

2023-06-18 12:21:14

微头条丨为完善老年健康体系 我国不断探索医养结合服务模式

2023-06-18 11:50:58

郑泽光:中英教育合作潜力巨大

2023-06-18 10:46:22

So bright!68岁加拿大友人直呼惊喜:在福州一天内就能完成检查和白内障手术 速递

2023-06-18 10:19:10

山东各地抢抓施工黄金期,加强统筹协调保障项目建设

2023-06-18 10:00:40

离奇出血!一到夏天,杭州女子每隔7-10天口鼻流血200毫升,20分钟后自动止住!出血点在哪里?

2023-06-18 09:01:08

全球速递!半导体龙头携国际巨头大动作 228亿元加码这一赛道!3只大消费股获机构密集评级

2023-06-18 08:48:25

数字人带货虚实:每月成本最低数百元 部分品类转化率远超真人主播|全球新消息

2023-06-18 07:51:14

同一天同一辆车因超载被连罚两次 两次超重百分比为啥不一样?

2023-06-18 07:00:24

《变形金刚7》来了,擎天柱不热爱人类了吗?

2023-06-18 06:00:58

焦点要闻:国外新娘市场直接相亲

2023-06-18 05:04:48

构建多元育人场景 为学生成长赋能-环球热闻

2023-06-18 01:46:57

全球要闻:茶酚胺类物质包括哪些_什么是茶酚胺类

2023-06-17 22:40:26

夜读丨土地是慷慨的 世界看热讯

2023-06-17 22:16:06

2023年今日头条极速版邀请码是多少?新用户填写的今日头条极速版邀请码有哪些?

2023-06-17 21:32:08

奥迪CEO:将加快电动汽车的开发,密切关注中国市场 世界新要闻

2023-06-17 20:17:17

商务部副部长王受文:我国正积极推进加入《数字经济伙伴关系协定》_全球速看料

2023-06-17 19:20:39

docx文件怎么转换成word文档 docx文件怎么转换成doc_动态

2023-06-17 18:15:33

观察:破十年纪录!珠海斗门港码头单月吞吐量首破8800标箱

2023-06-17 17:57:00

世界滚动:划破峡谷天际!《狂野之心》实装“凶恶彼岸·飞”更新

2023-06-17 17:13:05

今日热议:美经济学家:尽管美国通胀放缓 但高物价仍是消费者“痛点”

2023-06-17 16:46:09

扫地机器人的实际用途?

2023-06-17 15:43:33

全球今亮点!俄媒:俄军击退乌军突击队袭击,使用缴获车辆摧毁乌军据点

2023-06-17 14:52:40

淄博狂飙90天:烧烤降温流量下滑,小饼厂利润从百万跌至不足10万-天天即时看

2023-06-17 14:08:40

润贝航科:荣获中国商飞公司颁发的“C919大型客机TC取证先进集体奖”

2023-06-17 13:28:41

太阳光到地球的时间需要多久-太阳光到地球的时间 热讯

2023-06-17 12:43:55

全球滚动:work_out的意思有几种相关介绍简介

2023-06-17 11:55:05

发人深省的“能量层级”定律:你在哪一层,就拥有怎样的人生|环球快资讯

2023-06-17 11:07:29

【天天新视野】寻秦记大结局是什么_寻秦记大结局是怎样的呢

2023-06-17 10:53:45

环球微速讯:马斯克访华受热捧,或为改款Model 3揭幕

2023-06-17 10:11:50

资讯推荐:暴雨来了怎么办?防御指南→

2023-06-17 09:39:28

胡兵时装周伦敦首站收官

2023-06-17 09:10:13

最新资讯:无锡银行:6月16日融券卖出7万股,融资融券余额2.43亿元

2023-06-17 08:38:46

每日播报!如何看待部分地区发布网约车饱和预警

2023-06-17 07:57:16

环球热门:梁海棠陈少杰是什么电视剧 梁海棠

2023-06-17 07:24:27

大招来了?丰田官宣新技术,纯电续航1000公里,上市时间也定了

2023-06-17 06:39:06

情暖毕业季,青春定格行

2023-06-17 05:54:54

2023强基计划“考生确认”进行中,网址及时间一览

2023-06-17 03:27:22

亚克力uv标牌_亚克力uv是什么意思

2023-06-17 01:52:55

世界快消息!一代宗师剧情解析_一代宗师剧情介绍

2023-06-17 00:36:30

杨度生平简介(杨度 典藏版)

2023-06-16 23:03:04

boss无线蓝牙耳机(boss耳机怎么样)

2023-06-16 22:09:34

宝龙商业(09909)与上海悦商订立数码化服务协定

2023-06-16 21:54:39

焦点快看:蛋糕店名字_好听的蛋糕店名字大全

2023-06-16 21:13:25

Mac“游戏机化”能否使苹果冲出困境?|环球新资讯

2023-06-16 20:34:53

征信不好急用钱怎么办去哪里借安全?十大良心贷款平台可放心借

2023-06-16 20:09:10

2023医学专业排名出炉,你的母校排第几?_全球热头条

2023-06-16 20:00:21

环球信息:流产后的回乳处理要领

2023-06-16 19:24:07

山东重大项目建设“扬鞭奋蹄” 助经济发展驶入“快车道”

2023-06-16 18:52:57

环球聚焦:夏日炎炎,无精打采?一起来林州太行大峡谷避暑吧~

2023-06-16 18:38:11

天天快看点丨有一种叫云南的生活|它们“出圈”的背后 是人与自然和谐共生

2023-06-16 18:14:20

志愿填报看过来!6月19日至21日,招办老师直播连麦“手把手”教你

2023-06-16 17:42:17

【当前独家】中国电信张德智:50G PON标准基本完成,需统一EPON/GPON技术路线

2023-06-16 17:18:18

少小离家老大回的诗是什么_少小离家老大回全诗 全球消息

2023-06-16 16:58:40

每日热点:保险期间是什么意思?选择保险期间要注意什么?

2023-06-16 16:38:26

《异形:坠入黑暗》预告片介绍本作全新原创剧情_全球观点

2023-06-16 16:04:32

日本最大在野党提交对岸田内阁不信任案|全球新要闻

2023-06-16 15:55:05

送杜少府之任蜀州翻译及主旨(送杜少府之任蜀州翻译) 世界资讯

2023-06-16 15:23:05