Select Language

AI社区

数据要素产业

谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别

在图像任务中卷积网络通常将输入图像编码成一系列中间特征来捕捉图像局部和全局的语意信息,特征的空间分辨率也会随着层数的增加而减小。然而,这种以牺牲空间分辨率为代价的模型结构对于需要多尺度特征的识别任务来说并不能获取非常有效的特征,尤其像是目标检测和语意分割任务中,类别识别和目标定位同样重要。像FCN和DeepLab等工作都提出了多尺度的编解码器架构来解决这一问题,利用牺牲尺度的模型来作为编码器,同时利用解码器来恢复空间信息。

虽然这种架构成功地提升了识别和定位任务的性能,但使用了降采样的编码器依旧损失了空间信息,需要解码器进行恢复,但这种恢复无法保留足够的原始空间信息。人们不禁想到,如果可以设计出一种主干模型避免空间信息的损失,是不是就能天然地同时适应于图像识别与定位任务了?

几种不同的尺度轮换架构

在这种思想的指导下,研究人员在今年的CVPR论文SpineNet中提出了一种名为尺度轮换模型(scale-permuted)的元结构,从两个方面提升了主干结构的性能。中间特征图的空间分辨率应该可以在任意层提升或者减小,以便在网络加深时保持空间信息的有效性;其次特征图间的连接应该跨越特征尺度来促进多尺度信息的融合。在新架构下,研究人员利用了神经架构搜索(Neural Architecture Search,NAS)方法在新的搜索空间中寻找有效的尺度轮换模型。结果表明这种模型在多尺度视觉任务中超过了标准的尺度缩减主干网络,在多个基准上实现了优异性能指标。

左图显示了尺度缩减结构,右图显示了尺度置换主干网络。每个矩形表示了一个模块,颜色和尺寸显示了空间分辨率和特征维度的变化,箭头表示了不同层间的连接。

一、SpineNet的架构设计

为了高效地设计SpingNet的架构,避免耗时的手工设计、参数搜索和设计,研究人员设计了NAS来优化模型结构。主干模型在COCO数据集上进行了训练,同时强化了识别和定位任务的需求。在架构搜索阶段,研究人员主要在三个方面进行了处理:

尺度轮换:由于需要从已有的模块进行构建,网络模块的顺序十分重要。在搜索中通过重整中间特征和输出模块的序列关系来重新定义了尺度轮换空间。交叉尺度连接:为每个模块定义了两个输出连接,可以来自于任意的低层模块或主干网络模块。模块自适应(可选):模块可以自适应地调节其尺度和种类。

从尺度缩减到尺度轮换的架构搜索过程对比

NAS搜索中使用了ResNet-50 主干网络来作为搜索种子,首先学习了尺度轮换和交叉连接的方式。研究人员使用了基于递归神经网络的控制器来实现架构搜索,这是目前最适合于尺度轮换的搜索架构。为了加速搜索过程,研究人员还设计了SpineNet代理,将SpineNet- 49的特征维度缩减因子设置为0.25,设置重采样因子α为0.25,并在bbox检测和分类中使用了64维的特征。为了防止搜索空间的指数增加,研究人员限制了中间架构仅仅允许最后五个block搜索,并在在现有block中进行检索。针对每个样本,代理训练512分辨率的图像5个epoch,同时验证集上的AP被作为奖励来优化结构。实际中使用了100个TPU来运行,来搜索最好的结构。

所有备选架构的计算量都几乎相同,因为在这一过程中仅仅轮换了特征模块的顺序。最终学习到的尺度轮换模型在目标检测任务中比ResNet-50-FPN高了2.9%的AP。如果添加搜索选项来适应模块的尺度和种类(包括残差模块或者瓶颈模块)还能够减少10%的浮点运算提升效率。下图显示了标准尺寸和mobile尺寸的SpingNet性能。

研究人员将得到的49层尺度轮换主干架构命名为SpineNet-49,如果利用重复模块叠加和维度拓展可以方便地构建出SpineNet-96/143/190等架构。

下图展示了RestNet-50-FPN和SpineNet-49的对比情况。

ResNet 主干 (左) 和 基于NAS搜索得到的SpineNet 主干 (右) 的比较。

二、性能

通过与ResNet-FPN的比较展示了新架构在性能上的大幅度提升。在使用相同模块的情况下,SpineNet比ResNet-FPN提升了3%的AP,同时还减少了10-20%的浮点计算。值得一提的是最大的SpineNet-190模型在COCO实现了52.1%的AP,在没有使用多尺度测试的情况下单模型结果超过了先前的检测器架构。SpineNet同时在分类任务基准iNaturalist细粒度数据集上取得了5%的top-1精度提升。

SpineNet模型和ResNet-FPN模型在bbox检测上的性能比较。


SpineNet和ResNet模型在iNaturalist细粒度图像分类任务上的性能比较。

同时在研究中发现,联合优化尺度轮换和尺度交叉连接比在固定尺度下优化交叉连接效果更好。交叉连接在不同尺度特征融合过程中扮演着重要的角色。研究人员通过选择性图破坏链接来探索交叉连接的重要性,包括移除短程连接、移除长程连接、同时移除长短连接并将其连接到先前的序列模块上。下表显示了性能衰减,发现短程连接并不能有效处理频率分辨率的演变。

三、结论和展望

研究人员认为尺度缩减模型无法同时有效地处理识别和定位任务,提出的尺度轮换模型作为一种新的架构解决了这一问题。同时还通过神经架构搜索的方式来提升这一架构的性能,并在目标检测和分类中得到了显著的性能提升。这一独特的模型架构将为各种视觉任务提供更多的选择和性能提升。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。