实时场景下的小脸检测存在检出率低而且回归精度差的问题。通过融合更底层特征进行多尺度级联预测。根据实时场景下的人脸特点生成不同大小和比例的预测框以更好地适应人脸形状。在预测阶段提出了基于IOU判别的soft and hard nms算法,对冗余预测框进行抑制,设置两个阈值将网络生成的预测框划分为低中高三段,对不同段的预测框采取不同的处理以达到精准筛选的目的。最优架构可在两张NVIDIA GTX 1080显卡下的实时视频检测和摄像头检测中获得45 f/s的速度,并且在Wider Face总体验证集上取得82.6%的平均精度。