第112章《Attention Is All You Need》

⚡ 自动翻页 打开后读到底，自动翻到下一次心动

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;总之它们的根本局限在於，信息在序列中必须一步一步地传递。

&emsp;&emsp;这种固有的顺序性成为了处理长序列、捕捉全局上下文的瓶颈。

&emsp;&emsp;而transformer架构，就是为了解决模型又慢又忘的绝症。

&emsp;&emsp;它的原理说复杂，那確实很复杂。

&emsp;&emsp;比如多头注意力机制（multi—headattention）、位置编码（positional

&emsp;&emsp;encoding）和前馈神经网络（feed—forwardnetworks）。

&emsp;&emsp;但它的核心能力，其实也非常简单。

&emsp;&emsp;就是字面意思：

&emsp;&emsp;翻译。

&emsp;&emsp;把人类的语言，翻译成计算机能读懂的数字，然后计算这些数字之间的关係。

&emsp;&emsp;它不再像小学生读书那样一个字一个字地读，而是一眼看完整篇文章，然后把注意力（attention）集中在那些最关键的词与词的联繫上。

&emsp;&emsp;它和word2vec的关係，是砖块与建筑的关係。

&emsp;&emsp;word2vec负责將人类的语言变化为数字砖。

&emsp;&emsp;而transformer负责將这些砖块搭建成有意义的摩天大楼。

&emsp;&emsp;最终达成的效果，就是可以精確的计算一个长句子中，每个词与其他词之间的关係。

第112章 《Attention Is All You Need》