20212022年的高精度模型swin transformer.convnext等
目前Transformer应用到图像领域主要有两大挑战视觉实体变化大在不同场景下视觉Transformer性能未必很好图像分辨率高像素点多Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题我们提出了一种包含滑窗操作具有层级设计的Swin Transformer.其中滑窗操作包括不重叠的local window和重叠的cross window.将注意力计算限制在一个窗口中一方面能引入CNN卷积操作的局部性另一方面能节省计算量.ConvNeXt并没有特别复杂或者创新的结构它的每一个网络细节都是已经在不止一个网络中被采用.而就是靠这些边角料的互相配合却也达到了ImageNet Top1的准确率.它涉及这些边角料的动机也非常简单Transformer或者Swin Transformer3怎么做我也对应的调整效果好就保留.当然这些边角料的摸索也是需要大量的实验数据支撑的是一个耗时耗力耗资源的过程.通过对ConvNeXt的学习我等调参侠不仅可以学习到诸多的炼丹经验还可以一探其背后原理.
下载地址
用户评论