Datawhale 组对学习打卡营 任务12:Transformer
目录 Transformer 多头注意力层 基于位置的前馈网络 Add and Norm 位置编码 多层感知机注意力 测试 译码器 解码器 训练 Transformer CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。 为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练
用户评论