堪比LSTM，Transformer引燃机器学习圈：带来惊喜

2021-01-27 15:03:58 来源：机器之心Pro

2017 年 6 月谷歌发布论文《Attention is All You Need》时，我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

在诞生至今不足四年的时间里，Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流)，还开始了向其他领域的跨界，近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

2020 年 10 月，谷歌提出了Vision Transformer (ViT)，可以直接利用 transformer 对图像进行分类，而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果，但其训练所需的计算资源大大减少。

2020 年 12 月，复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR)，将语义分割视为序列到序列的预测任务，该模型在 ADE20K 上排名第一，性能优于 OCNet、GCNet 等网络。

2021 年 1 月初，OpenAI 又连放大招，用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果，前者可以基于本文直接生成图像，后者则能完成图像与文本类别的匹配。

由此，「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示：Transformer 是新的 LSTM。

他否定了自己在 2017 年 5 月发表的言论：「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它，都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出，当时已诞生 20 年。

David Ha 不会想到，这句预言被一个月后出现的 Transformer 打破，而这仅用了 4 年时间。

关键词： LSTM，Transformer

堪比LSTM，Transformer引燃机器学习圈：带来惊喜

相关阅读

精彩推送

热点文章

推荐文章