pytorch 单机多GPU训练RNN遇到的问题
在使用DataParallel训练中遇到的一些问题。 1.模型无法识别自定义模块。 如图示,会出现如AttributeError: ‘DataParallel’ object has no attribute ‘xxx’的错误。 原因:在使用net = torch.nn.DataParallel(net)之后,原来的net会被封装为新的net的module属性里。 解决方案:所有在net = torch.nn.DataParallel(net)后调用了不是初始化与forward的属性,需要将net替换为net.module。 2.隐藏状态不被拆分到多GPU里。 这种错误常出现在RNN以及衍生
用户评论