有效长度 def SequenceMask(X, X_len,value=0): maxlen = X.size(1) mask = torch.arange(maxlen)[None, :].to(X_len.device) < X_len[:, None] X[~mask]=value return X 在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。 unsqueeze()函数: a的维度为(2,3) 在第二维增加一个维度,使其维度变为(2,1,3),a.unsqueeze(