《动手学习深度学习》之二:3.Transformer模型(打卡2.3)
3.Transformer模型 3.1.CNN与RNN的缺点: 1.CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 2.RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列 3.2.为了整合CNN和RNN的优势,创新性地使用注意力机制设计了Transformer模型 3.2.1.该模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。 3.3.Transformer模型的架构 3.3.1.与seq2seq模型相似,Transformer同样基于编码器-
用户评论