第112章 《Attention Is All You Need》
⚡ 自动翻页
打开后读到底,自动翻到下一次心动
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  总之它们的根本局限在於,信息在序列中必须一步一步地传递。
  这种固有的顺序性成为了处理长序列、捕捉全局上下文的瓶颈。
  而transformer架构,就是为了解决模型又慢又忘的绝症。
  它的原理说复杂,那確实很复杂。
  比如多头注意力机制(multi—headattention)、位置编码(positional
  encoding)和前馈神经网络(feed—forwardnetworks)。
  但它的核心能力,其实也非常简单。
  就是字面意思:
  翻译。
  把人类的语言,翻译成计算机能读懂的数字,然后计算这些数字之间的关係。
  它不再像小学生读书那样一个字一个字地读,而是一眼看完整篇文章,然后把注意力(attention)集中在那些最关键的词与词的联繫上。
  它和word2vec的关係,是砖块与建筑的关係。
  word2vec负责將人类的语言变化为数字砖。
  而transformer负责將这些砖块搭建成有意义的摩天大楼。
  最终达成的效果,就是可以精確的计算一个长句子中,每个词与其他词之间的关係。