Onemy day海报的海报图片可以分享吗?3q~ (^_^)v

样式部分因人而异可以自行设計调整,以下为参考:

该部分就是核心所在了对应上面的 HTML 和 CSS 部分,实现如下:


 
 
 
 
 

最后附上几张本人博客网站实现的最终效果图也欢迎点擊 前往访问 ^_^


手机、电脑实用软件分享

声明:作者翻译论文仅为学习洳有侵权请联系作者删除博文,谢谢!

目标检测和实例分割是计算机视觉的两项基本任务它们密切相关,但他们之间的关系在以往的大哆数工作中还没有得到充分的探讨本文提出了一种新的用于交互目标检测和实例分割的深度结构RDSNet。为了回应这两个任务我们设计了一個两个流结构以共同学习对象级别(即边界框)和像素级别(即实例掩码)上的特征。在这个结构中来自两个流的信息是交替融合,即對象层的信息引入实例意识和翻译差异到像素级像素级的信息-在对象级别细化对象的定位精度作为回报。具体地说相关模块和裁剪模塊被提议产生实例掩码,以及基于掩模的边界求精模块边界框通过对COCO数据集的大量实验分析和比较,证明了该方法的有效性以及RDSNet的效率源代码位于https://github.com/wangsr126/RDSNet

目标检测和实例分割是计算机视觉中两个基本的、密切相关的任务论对象层次上的渐进图像理解像素级别由于应用了deep神經网络,近年来见证了这两项任务的重大进展然而,他们的关系但在之前的大部分工作中都进行了充分的探索因此,通过利用交互来提高这两个任务的性能仍然是有意义和具有挑战性的在对象级和像素级信息之间

        目标检测的目标是用矩形边界框并将其分类为特定类别。在这项任务中最关键的挑战之一在于对象定位,即包含以及紧凑的边界框正如在许多最先进的方法,定位误差很容易降低其性能洳图1所示。定位误差主要来源于回归方法获取边界框由于逐点回归并不能直接感知整个对象。因此更合理的方法是进行对象定位进入潒素级任务,与包围盒的定义一致即最小包围矩形对象掩码的。因此如果提供了对象掩码,则获取根据遮罩的边界框

图1:对象检测Φ的本地化错误。(a)(b)盒子不能完全包围物体(c)(d)盒子不能紧紧地包裹物体。如果我们完全正确这些错误中的大多数可以很容易地纠正消除对潒检测与实例分割任务之间的倒数关系。结果由MaskR-CNN(He等人)获得2017)。

        实例分割的目的是进一步预测除类别外的每个对象的每像素二值掩码核心实例分割的思想是引入实例感知像素类别。目前大多数现有的方法如下一个两阶段的范例(如面具R-CNN(He等人。2017年)也就是说,每個检测都会分别生成掩码提议这样,遮罩就可以自然地感知各个对象实例然而,这种循序渐进的过程使得掩模在很大程度上依赖于探測器获得的边界盒容易受到其定位的影响错误。此外利用运营商作为投资回报池(Girshick 2015)很大程度上限制了大型物体。FCIS模型(Li等人2017)介紹位置敏感地图,例如感知分割但是生成的遮罩仍然仅限于检测结果。其他一些方法可以去除检测器(Fathi等人但它们的准确度较低。它們的起源缺点主要在于对象级信息的利用不足

        根据以上分析,目标检测和实例分割具有不可忽视的优势不幸的是,现有的作品很少關于他们之间的关系。HTC(Chen等人2019a)是采用级联结构逐步细化两项任务并取得良好效果的代表作结果。然而这种多阶段的设计带来了较高嘚计算成本。

        在这项工作中我们提出了一种互惠的目标检测方法和实例分割网络(RDSNet)来利用这两项任务之间的关系。RDSNet采用双流结构即對象流和像素流。从这两个流中同时联合提取特征然后在彼此之间交替融合。具体来说对象流集中在对象级别特征和由基于回归的检測器形成,而像素流关注像素级特征遵循FCN(Long、Shelhamer和Darrell 2015)架构,以确保高分辨率输出为了利用来自对象流的对象级提示,一个相关模块和

提絀了一个裁剪模块该模块将实例感知和翻译方差特性引入到像素流,并产生实例感知的分割掩码然后,提出了一种基于掩模的边界求精模块以减小定位误差像素流,即基于实例掩码生成更精确的边界框

        RDSNet充分考虑了目标检测和实例分割任务之间的相互关系.与以往的方法相比,它有以下三个优点:1)由RDSNet生成的掩码对不同尺度的对象具有一致的高分辨率;2)由于具有巧妙的裁剪模块掩码对检测结果的依賴性较小;3)更准确和更准确;更紧密的包围盒是用一种新的像素级公式得到的对象包围盒位置。

        我们的主要贡献是探索了对象检测与实唎分割任务之间的相互关系并提出了一种端到端的统一体系结构RDSNet来利用s互为对象级和像素级任务,展示了多任务融合概念的潜力

目标檢测。大多数基于CNN的现代探测器都依赖于回归方法来获得物体的包围盒一种典型的方法是基于锚的方法(2016年;2016年;2017年a;2017年b),它首先用於更快的R-CNN模型(Ren等人)2015).在每个滑动窗口位置放置多尺度和纵横比的密集锚,并作为回归参考探测器对这样的锚盒进行分类,并将偏迻量从锚盒回归到包围框基于回归的检测器的另一个分支消除了锚盒,即无锚它直接预测物体的中心并在每个位置回归边界1(Huang等人)。2015年;Yang等人2019年;田等人。2019).在本工作中我们提出了一种简单而有效的方法,将上述基于回归的检测器扩展到TH实例分割任务和定位精喥将得到提高。

实例分割现有的实例分割方法可以分为两阶段和一阶段。两阶段方法遵循自上而下的过程即检测-然后-段(He等人)。其Φ首先检测对象作为包围框,然后为每个对象生成二进制掩码基于Mask R CNN的方法(例如。(刘等人)(已主导数次流行国际基准(Lin等人)2014姩;Cords等人,2016).然而这种逐步的过程使掩模质量在很大程度上取决于盒子的准确性。

        One-stage也被称为单镜头方法因为对象是直接分类、定位和汾割的,而不产生候选区域建议一阶段方法的一个分支(2017年;2017年;2017年;2017年;2019年)遵循自下而上的过程,即先将像素标记为类别或嵌入到特征空间中然后将像素分组为每个物体。这些方法来源于为语义分割而开发的方法并且自然地获得了更高分辨率的掩码。但是不知噵对象的状态(数字、位置)等)预先复杂的设计预定义的类别或嵌入式空间,导致劣质的结果我们认为困境的根源在于缺乏对象级的信息.一个阶段方法的另一个分支(Li等人)。2017年;Bollya等人建议联合利用自上而下和自下而上的方法。这些方法遵循标签-像素-然后-集群PR大致上分组方法依赖于检测结果,直接或间接(例如用检测器预测的包围盒切割掩码)。我们的方法遵循这一过程一般来说但是引入对象級信息是为了简化具有相关模块的嵌入式空间设计,并且提出了一个改进的裁剪模块来降低边界框上的实例掩码

边界细化级联R-CNN(蔡和Vasconcelos2018)采用级联体系结构,通过多级迭代定位来细化检测结果HT C(Chen等人)2019a)信息流。但这些方法是为两阶段方法设计的相反,我们的方法基于┅种新的公式来细化边界定位并与一个STA兼容通用电气的方法和较少的计算。

图2:建议的RDSNet的体系结构它遵循两个流结构,即对象流和像素流来自这两个流的信息是由几个我们相互作用的设计模块:相关模块和裁剪模块引入实例的感知和像素流的平移方差,协助生成实例掩码(见SEC.3.2.)反过来实例掩码帮助对象流获得更准确的边界框(参见SEC.3.3.c表示类号,k表示一个位置的锚号d表示表示维度,以及*表示卷积操作)

茬本节中,我们首先介绍RDSNet的整体架构其中核心是一个由对象流和像素流组成的双流结构,如图所示2.然后是双胞胎介绍了两个流之间的萣向交互,即利用对象级信息来促进实例分割以及利用像素级信息来促进对象DET切。

RDSNet的核心是双流结构即对象流和像素流。这两条小溪囲用相同的FPN(Lin等人.2017a)主干然后为每个相应的任务分离。这种平行结构支持对象级和像素级信息的分离以及不同任务的可变分辨率

对象鋶。对象流侧重于对象级信息包括对象类别,位置等..它可以由各种基于回归的检测器形成(Liu等)2016年;Redmon and法哈迪2018年;林等人.2017b)。此外我們还添加了一个与分类和回归分支并行的新分支,以提取每个锚点(或位置)的对象特征这条河负责产生检测结果,稍后将由像素级信息细化(见SEC.3.3)

像素流。像素流的重点是像素级信息并遵循FCN(2015)的高分辨率输出设计。具体来说每像素特征是在这个流中提取的,并苴用于通过使用对象级信息生成实例掩码(参见SEC.3.2)

从实例不可知到实例感知。实例分段的目的是为每一个像素但它经常会受到由于二維图像平面中物体的数目和位置不确定,可以使用预先定义的像素类别正确的解决方案是利用对象级信息引入实例意识。为此设计了┅个相关模块,根据像素间的相似性将每个像素连接到相应的实例上表示,从对象流中学习以及像素流

        给定物体o,我们用φ(Vo)∈R^(2×d×1×1)表示它的表示其中VO从对象流表示该对象的特征,d是表示的维数2维对于φ(Vo),我们同时考虑了前景和背景同样,我们将整个图像的潒素表示形式表示为Ψ(U)∈R^(1×d×h f×wf)其中U表示fea来自像素流的Ture映射,h_f和w_f是Ψ(U)的空间尺寸

*表示卷积算子。相似映射Mo∈R^(2×1×hf×wf)的两个通道可鉯看作

每个像素的前景和背景概率对应于对象o像素级交叉熵损失为Mo在训练阶段附加在任务单上。对于图像中的所有对象分别重复同步哋进行相关操作。相关模块启用掩码发电机端对端培训从某种意义上说,训练我们的相关方法的过程类似于度量学习(Fathi等人即,将前景像素的表示拉向其在特征空间中的对应对象表示并将背景像素的表示推开,如图3所示

图3:用于对象2和像素的表示的插图,两者分别嵌入到对象流和像素流中的d维特征空间中像素表示在特征空间中,S接近相应的实例表示不同的对象具有不同的表示。进行降维(从d到3)和L2归一化以重新计算训诫

从平移不变到平移不变。与大多数两阶段实例分割方法不同(He等人.2017年)由上述相关模块为每个对象生成的掩码覆盖了w孔图像,不考虑物体大小和位置..这种特性保证了高分辨率的结果但噪声很容易涉及。这一缺点主要归因于翻译卷积的性质:任何两个具有相似外观的像素都倾向于具有相似的表示,尽管它们实际上可能属于不同的实例或背景所有的财产由于像素表示中没有涳间信息,很难直接排除噪声幸运的是,我们可以通过使用边界框来克服这个缺点由对象流CED因为它们可以提供足够的空间限制。具体來说对于每个对象,其边界框之外的像素直接设置为背景并在训练期间忽略。S裁剪策略使实例掩码仅限于边界框的内部区域并且远離像素的像素不参与实例掩码,即使它们具有类似的外观.然而简单地用这样的包围框裁剪会使实例掩码受到检测结果的定位错误的影响(如图1(a)(b))并意外地导致一个强大的检测和分割结果。

        为了解决这个问题可以通过裁剪带有扩展边界框的遮罩来进行折衷。在推理过程中这样的策略保证了遮罩对包围盒的依赖性相对较低,并且像素足够远不在面具里而且,用扩展的边界框使训练期间为负像素两种极端情况,即不裁剪和不扩大裁剪对我们的任务都是有害的,因为太多的多样性会导致收敛困难而多样性不足则会导致分别为特征空间。

        应该注意的是用扩展的包围框裁剪会使每个对象在训练过程中涉及到更多的背景像素,使得背景像素很容易主导训练过程为了在前景和背景之间保持一个可控的平衡(在我们的实验中是1:1),用于背景像素的在线硬例挖掘(OHEM)(Shrivastava、Gupta和Girshick2016)是一个选择了

3.3 蒙板辅助目标检查

在这一部分中,我们介绍了如何利用像素级信息来增强检测结果..根据上述分析像素级信息具有潜在的可能性eFit检测任务,尤其是用于对潒边界定位为此,我们提出了一种基于贝叶斯定理的边界定位新公式在此公式中,我们理解:利用从对象流和像素流中获得的边界框囷实例掩码得到每个对象的更精确的边界框。基于这个公式一个基于掩模的边界提出了细化模块(MBRM)。

基于掩码的边界细化模块包圍框最初定义为对象的最小包围矩形,表示它绝对依赖于实例所覆盖的区域面具从这个意义上说,通过回归方法获得包围框似乎是间接嘚这是现有对象检测方法中常用的方法。相反如果提供了实例掩码,则为qui简单的解决方案是使用它的最小包围矩形作为检测结果这囸是我们的基线命名为Direct。在这种情况下在像素流中生成,回归边界框掩码

        虽然回归边界框可能包含定位错误,但我们认为它们在一定程度上仍然为对象边界位置提供了合理的先验因此,我们的提法联合擦除检测和分割结果具体而言,我们将边界的坐标视为离散随机變量从概率角度来看,对象边界位置是边界所在的坐标概率的argmax,即

其中X是左边界水平坐标的离散随机变量M0偶式Rh×w是方程中M的前景信噵。(1)向上采样到输入图像大小h×w并且移除大小1的维数,P(X=i | M‘)表示给定相应实例掩码M0的后验概率

表1:COCO测试-dev的实例分割结果。表示汢卫六XP或1080TiV表示特斯拉V100..“8月”意味着训练期间的数据增强:o只用水平翻转训练增强和√是进一步训练与规模增强。?意味着这一条目是由毫米探测提供的模型获得的(Chen等人.2019b)

其中P(X=I)和P(M0|X=I)是相应的先验概率和似然概率。

而s是一个超参数描述了边界对其相邻像素的影响范围..理想情况下,边界上的像素只影响其最近的两个相邻像素即一个o。包围框的概率为0里面的另一个有概率1。在这种情况下s=1。然而实例掩码并不那么尖锐,因此很难为

提供适当的公式因此,我们用一维卷积与Kerne近似大小为2s+1然后是用于归一化的Sigmoid函数,参数是通过反姠传播学习的

其中α是归一化系数。显然,边界位置的分布与实例尺度有关,因此我们设置了:

其中WB表示边界框的宽度,XR表示回归左边界嘚水平坐标γ指定回归边界的权重。可以看到γ越小表示回归边界的权重较高,反之亦然

图4:对COCOval2017的一些结果进行视觉比较。顶部、中间囷底部行由MaskR-CNN、RDSNet w/o扩展种植或MBRM和完整版本的RDSNet获得RDSNet Give与面具R-CNN相比,它的面具更锋利圆圈区域突出了MBRM在减轻定位误差方面的优势。

我们的模型训練的损失函数为:

其中L_cls和L_reg是检测任务中常用的分类和回归损失(Ren等人.2015年;Lin等人)而Lmask是SEC中描述的像素级交叉熵损失。3.2.只有正锚的表示(与哋面真相盒相匹配)被输入到相关模块中以生成实例掩码然后用扩展的地面图裁剪这些掩码用于计算Lmask的TH盒。换句话说在Lmask中,展开框之外的像素被忽略Lrefine是SEC中定义的交叉熵损失。3.3.him和him是超参数损失重新加权在所有其他参数训练后,MBRM中的参数分别用Lrefine进行训练以与L收敛。原洇是MBRM只需要相对较好的Reg分配框和实例掩码。

        在训练过程中对象类别和包围框首先由对象流中的检测器以及每个实例的表示获得。同时像素表示在像素流中生成s。接下来只有在相关模块中处理NMS之后的提案才能生成实例掩码,然后用d获得的扩展框裁剪这些掩码伊特克托为了得到精确的坐标,这些实例掩码被上采样到输入图像大小然后输入MBRM。最后用阈值0.4对掩码进行二值化

在这一部分中,进行了实验汾析和比较以证明目标检测与实例分割任务之间的相互关系。我们在COC上报告结果O数据集(Lin等人)并使用常用的度量方法进行对象检测(APBB)和实例分割(APM)。我们在2017年训练并对Val2017和Test-dev进行评估。

我们实现了基于mm检测的RDSNet(Chen等人.2019b)我们使用ResNet-101(He等人.与FPN Lin等人.2017a)为我们的骨干..对于对潒流,我们选择一个强的单级detec托尔RetinaNet(林等人)。作为我们的检测器除非另有说明,以及我们的基线以验证我们的方法的有效性。

        实唎和像素表示的维数为32在训练和推理过程中,我们使用不同的包围框扩展比来裁剪面具在训练过程中,我们使用地面真相包围框并將它们的高度和宽度扩大1.5倍,中心点保持在推理过程中,扩展比设置为1.2所有的λs都设置为1。

在本节中我们首先验证了我们的相关性囷裁剪模块的有效性。我们比较了RDSNet和YOLACT(Bolya等人)另一种一阶段的方法,例如分割W.采用YOLACT的主干和检测头,采用扩展裁剪策略(表示为RDSNets)的楿关模块与简单裁剪的线性组合方法进行比较在YOLACT。如Tab所示用相关方法进行实例分割,得到31.0m AP(1.1mAP)而YOLACT的29.9mAP为29.9mAP。更重要的是保持快速的速喥。比较对于只有在YOLACT中附加限制的前景系数每个对象都有助于更容易收敛从而得到更好的结果。

        在表中进行额外的消融实验显示了裁剪模块的有效性。如果我们在推理过程中简单地用扩展的回归包围框裁剪掩码性能就会下降被观察到(第2vs.第3行),它表示模型无法处理褙景像素的多样性除非在训练期间应用扩展策略(第3行v.s.第5行)。一旦对负像素采用OHEM则观察到1.9mAP比YOLACT改善(第7行)。

表3:关于COCOval2017作物模块有效性的演示LC:线性组合,Corr:相关TE:在训练过程中展开,IE:在推理过程中展开.我们最后的梦想PTED选择(最后一行)产生最高的MAP应该注意的昰,通过使用Corr而不是LCRDSNet在MAP中已经优于YOLACT1.1。

图5:MBRM的超参数灵敏度

        然后我们将RDSNet与最先进的实例分割方法进行了比较。如表所示我们的方法在速度和精度之间实现了更好的平衡。用sm所有输入大小(550或600)我们实现了32.1m AP的实时速度(32fps)。在800个输入大小的情况下RDSNet的性能优于大多数单階段方法,除了Tensor Mask(Chen等人)不过速度慢了近3倍。与两阶段方法相比值得注意的是RDSNet克服了MaskR-CNN的固有缺点(He等人.2017)在很大程度上,如决议低面具强烈的依赖面具上的包围盒等,如图1和图4所示此外,我们认为RDSNet的速度限制在我们的检测器的速度(Lin等人.2017b)(10.9fps)如表所示。在RDSNet中呮给原始检测器带来轻微的延迟。因此可以通过切换到其他更快的探测器来进一步加快速度,这超出了这项工作的范围

对于检测任务,RDSNet的关键新颖之处在于在一个阶段过程中使用实例掩码的边界框如表2,我们发现多任务训练掩模发生器确实带来了一定的改进在我们的基线上(RetinaNet Lin et al.)但MBRM在计算成本可以忽略不计的情况下实现了进一步的一致性改进。注意所有的收益都来自更精确的边界定位,而不是所有其他方面为了公平比较,表中只显示了未增加测试时间的单个模型结果

表4:MBRM对COCOval2017有效性的演示。仅仅将实例掩码的最小包围矩形作为检測结果(第2行)在小obj上不能很好地工作紧急情况然而,我们的MBRM(第3行)通过像以前一样引入回归边界框来更好地工作

        我们进一步分析叻MBRM中超参数对COCOval2017的敏感性,即s和γ,如图5当γ=0时细化模块不被激活。我们观察到不同的变异改良中的TS在0.05左右稳定工作,所以在所有的实驗中都使用γ=0.05表示一个像素离边界有多远仍然受到影响。更大的s会导致更精确的resul在一定的范围内而进一步增加s不会带来很大的改善。峩们使用s=4进行所有实验

        然后,我们将MBRM与直接方法进行比较如表4所示,我们发现直接方法在小规模对象,这表示必须使用回归边界框之前嘚值我们的MBRM更适合大的物体,而小的物体上的轻微下降是可以忽略的如果小的物体有更精确的遮罩,这个问题就可以解决了提供了对潒

我们提出了一个统一的目标检测和实例分割体系结构,实验分析证明了两者之间的相互关系任务以前工作的缺点是实例掩码的分辨率低,掩码对框和边界框的定位误差很大在这项工作中克服困难我们认为目标检测和不应单独研究实例分段任务希望今后的工作重点放茬不同的图像感知任务之间的相互关系上。

我要回帖

更多关于 my day海报 的文章

 

随机推荐