剖析Transformer

不定期更新中… 别问,问就是在玩Rainbow Six Siege。

Transformer的并行性以及信息抽取能力可以在很大程度上提高模型的训练速度和训练效果,最近的一些研究也都围绕着Transformer展开(如Elmo,Bert),LSTM的并行性差训练速度慢被淘汰也是迟早的事,虽然Transformer相对复杂对初学者来说并不好理解,但是理解并应用Transformer对一名NLPer来说是基本的要求,所以本文将结合The Illustrated TransformerThe Annotated Transformer两篇文章从采用图片和代码两种方式剖析Transformer。

考虑到读者的基础不同,文章的难易程度并不好掌控,所以阅读本文还是要求读者有一些基础知识如使用(Pytorch等等),不过不用担心,我会在介绍的过程中提供一些比较好的博客和文档来帮助你补充基础知识。

生活不易,求打赏~