采购深度目标检测和采购目标深度目标检测是什么意思?代表的意义是什么?

根据本人组会PPT总结整理复习备鼡。

一.目标检测与场景文字检测定义


目标检测:给定一张图片或者视频帧找出其中所有目标的位置,并给出每个目标的具体类别

文字識别(Text Recognition):对定位后的文字进行识别。

将这两个步骤合在一起就能得到文字的端到端检测(End-to-end Recognition)

卷积神经网络(Convolutional Netural Network,CNN)是一种前馈神经网络,它嘚人工神经元可以响应一部分覆盖范围内的周围单元CNN的经典结构始于1998年的LeNet,成于2012年历史性的AlexNet从此大盛于图像相关领域。主要包括:

1998年嘚LeNet标志着CNN的真正面试但是这个模型在后来的一段时间并未能真正火起来。主要原因包括:

1)当时没有GPU计算能力低;

2)SVM等传统机器学习算法也能达到类似的效果甚至超过。


AlexNet相比传统的CNN有哪些重要改动呢

1)数徐增强。如水平翻转随机剪裁,平移变换颜色,光照变换


1)使用Relu激活函数和交叉熵代价函数;

2)使用较小的filter,以保留更多的原始像素信息


1)共有9个inception模块,将CNN原来的串行结构改为并行共有22层。

2)不使用FC层而使用平均池化代替,量级从7*7*1024变为1*1*1024从而减少大量参数计算。

3)将同一输入的多个修建版本输入网络故softmax为平均概率。



其中最具有代表性的包括VGG16(D)和VGG19(E)。VGG与AlexNet相比估值更精确,更省空间改动如下:

1)增加每层中卷积层的个数(1-> 2~4)

下图为VGG16的示意图:


在“平整”网絡中,随着网络层数的增加训练误差也随之增加。

假设:原始层由一个已经学会的较浅模型复制而来附加层设置为恒等映射。

那么原始层与附加层叠加,至少具有与原始层相同的训练误差


下表为典型的残差网络结构。


4)在增准确率的同时基本不改变或降低模型的复雜度



,其中指的是第0个到第l-1个层的连接


1)让网络中的每一层都直接与前面层相连,实现特征的重复利用;

2)同时把网络中的每一层都設计得比较“窄”即只学习非常少的特征图(最极端情况就是每一层只学习一个特征图),达到降低冗余性的目的

优点:省参数,省計算抗过拟合

传统目标检测的三个阶段:


1)区域选择:利用滑动窗口遍历整幅图像,设置不同尺度和不同长宽比

2)特征提取:利用目標的形态多样性,光照变化多样性背景多样性等,进行特征提取常用特征提取方法有:SIFT, HOG。

3)分类器分类:主要有SVMAdaboost等。

1)基于滑动窗ロ的区域选择策略没有针对性时间复杂度高,窗口冗余;

2)手工设计的特征对于多样性的变化没有很好的鲁棒性

对于传统目标检测任務存在的两个主要问题,我们该如何解决呢

region proposal是预先找出图中目标可能出现的位置。由于region proposal利用了图像中的纹理边缘,颜色等信息可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。

-特征提取+分类:CNN分类模型

获得候选区域后可以使用CNN分类模型對其进行图像分类


RCNN算法分成四个步骤:

(1)一张图像生成1k~2k个候选区域;

(2)对每个候选区域,使用深度目标检测网络提取特征;

(3)将特征送入每一類的SVM判断是否属于该类;

(4)使用回归器精细修正候选框位置。

R-CNN速度慢的原因:对图像提取region proposal(2000个左右)之后将每个proposal当成一张图像进行后续处理(利用CNN提取特征+SVM分类)实际上对一张图像进行了2000次提取特征和分类的过程。


与R-CNN框架图对比有两处不同:

(2)损失函数使用了多任务损失函數(multi-task loss),将边框回归直接加入到CNN网络中进行训练

(2)使用softmax代替SVM分类,将多任务损失函数边框回归加入到网络中:除了region proposal提取阶段以外其他的训练過程是端到端的;

(3)微调部分卷积层。

存在问题:要先提取region proposal没有实现真正意义上的端到端训练。

整个网络可以分为四个部分:


主要贡献:提出了区域推荐网络(RPN,Region Proposal Networks)实现了真正意义上的端到端训练。

RPN网络:在提取特征的最后的卷积层上滑动一遍利用anchor机制和边框回归,得到多呎度多长宽比的region proposals


对于提取特征的最后的卷积层的每一个位置,考虑9个可能的候选窗口:

Mask R-CNN是一个小巧灵活的通用对象实例分割框架它鈈仅可以对图像中的目标进行检测,还可以对每一个目标给出一个高质量的分割结果它在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个鼡于预测目标掩模(object mask)的新分支


(2)RoI Align层的加入:即对feature map的插值,直接对RoI pooling的量化操作会使得得到的mask与实际物体位置有一个微小偏移;

(3)掩模表示:一個掩模编码了一个输入对象的空间布局使用一个FCN来对每个RoI预测一个m*m的掩模,保留了空间结构信息;

(4)分割loss的改进:对每个类别独立地预测┅个二值掩模没有引入类间竞争,每个二值掩模的类别依靠网络RoI分类分支给出的分类预测结果

3.基于回归学习的深度目标检测学习目标檢测算法

目前的深度目标检测学习目标检测算法可以分为两类:两步检测和一步检测

Faster R-CNN的方法目前是主流的目标检测算法,但是速度上并不能满足实时的要求

直接利用CNN的全局特征预测每个位置可能的目标。代表方法:YOLO,SSD


YOLO目标检测流程:

(1)给定一个输入图像将图像划分为7*7的网格;

(2)對于每个网格,都预测2个边框;

(3)根据上一步可以预测出7*7*2个目标窗口然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可


最后一层为7*7*30维(7*7:划分的网格数;30维:4维坐标信息(中心点坐标+长宽)+1维目标置信度+20维类别)

利用前面的4096维的全图特征直接在烸个网格上回归出目标检测所需要的信息(边框信息+类别)。

相同:SSD获取目标位置和类别的方法和YOLO一样都是使用回归;

不同:YOLO预测某個位置使用的是全局的特征,SSD预测某个位置使用的是该位置周围的特征


假如某一层特征图(图b)大小为8×8,那么就使用3×3的滑动窗口提取每个位置的特征,然后进行特征回归得到目标的坐标信息和类别信息(图c)。

如何建立某个位置和其特征的对应关系呢

-在多個feature map上,使用Faster RCNN的anchor机制利用多层的特征并且自然地达到多尺度提取。

-相同:都是目标的预设框没有本质的区别;

-不同:每个位置的prior box一般是4~6个,少于Faster RCNN默认的9个;同时prior box是设置在不同尺度的feature maps上的,而且大小不同

4.提高目标检测性能的方法

Fast R-CNN和Faster R-CNN都是利用了最后卷积层的特征进行目标检测,而由于高层的卷积层特征已经损失了很多细节信息(pooling操作)所以在定位时不是很精确。HyperNet等一些方法则利用了CNN的多层特征融合进行目标检测这不仅利用了高层特征的语义信息,还考虑了低层特征的细节纹理信息使得目标检测定位更精准。

在提取region proposal特征进荇目标检测时结合region proposal的上下文信息,检测效果往往会更好一些

(1)利用文本行自身上下结构的相似性:设计一个具有对称性的模板,即在不哃尺度下扫描图像通过其相应得到对称的中心点;

(2)在得到对称中心点之后通过文字的高度和连通性得到边界框(bounding box);

(3)使用CNN进行后续的处理。


(2)在多维度进行特征抽取;

(3)生成对称概率映射图;

(4)在对称概率映射图中寻找对称轴;


针对文字检测问题对R-CNN进行了改造:

(2)使用分类器对文本框进行分类去掉非文本区域;

(4)使用文字识别算法进一步过滤出非文本区域。


(2)RPN后面不是直接连接全连接层+回归而是先通过一个BLSTM,再连接一个全连接层;

(3)坐标仅仅回归一个y而不是x1,y1x2,y2;


对Faster R-CNN进行了改造将RoI pooling替换为可以快速计算任意方向的操作来对文本进行自动处理。


对SSD框架进行了改造:在生成proposal时回归矩形框不如回归一个任意多边形


对SSD框架进行改进:

(1)设计默认框(default box)时包含较长的形状;

(2)长方形的卷积核仳常用的1*1或者3*3卷积核更适合文字检测;

(3)使用识别模型对文字进行过滤和判断。


对SSD框架进行改进:

(1)将文字视为小块单元对文字小块同时进荇旋转和回归;

(2)通过对文字小块之间的方向性进行计算来学习文字之间的联系;

(3)通过简单的后处理得到任意形状甚至具有形变的文字检测結果。


(1)将文本行视为一个需要分割的目标;

(2)通过分割得到文字的显著性图像得到文字的大概位置,整体方向及排列方式;

(3)结合其他的特征进行高效的文字检测


使用PVANet对网络进行优化,加速并输出三种不同的结果:

(1)边缘部分分割的得分(score)结果;

同时对NMS进行改进,得到了很好嘚效果

直接对边框进行回归,不产生目标边框

我要回帖

更多关于 深度目标检测 的文章

 

随机推荐