1绪论 近年来,随着“人工智能”的热度不断上升,卷积神经网络(Convolutional Neural Network)也不断现身于各大图像分类(ImageNet[1])、目标检测(PASCAL VO
1 绪论
近年来,随着“人工智能”的热度不断上升,卷积神经网络(Convolutional Neural Network)也不断现身于各大图像分类(ImageNet[1])、目标检测(PASCAL VOC[2]、MS COCO[3])等方面的竞赛,并不断刷新着这些竞赛的记录。行人检测,作为目前目标检测中的研究热门,凭借卷积神经网络,可以实现更高的行人检测的准确率,这也是本文的出发点所在。
本文主要是通过GitHub上第三方的开源代码,在TensorFlow 上实现了基于MobileNet[4]的Faster R-CNN[5]目标检测框架,并且在Caltech行人检测数据集[6]上取得了不错的对数平均漏检率(Log Average Miss Rate),同时也对卷积神经网络层数的设置以及MobileNet的优势与劣势进行了实验与讨论。
绪论部分主要由三部分组成:第一部分介绍行人检测算法的发展现状,第二部分介绍人工智能领域的深度学习中的重要网络卷积神经网络的发展现状,第三部分是对本文各部分的一个简单介绍。
1.1 行人检测发展现状
行人检测,一直是目标检测研究与应用中的热点,比如人机交互系统、自动驾驶系统、人体运动分析、工业机器人、现代智能交通管理、无人机航拍图像、智能视频监控等。作为现实世界中众多任务的重要步骤甚至是第一步,其精度、速度以及效率的提高,一直以来都是学术界与工业界关心的研究重心。
传统行人检测方法主要有基于全局特征的方法、基于人体部件的方法以及基于立体视觉的方法这三种[7],而其中多数是以提取全局特征来训练神经网络的机器学习方式来进行实现。在这之中,行人主要由边缘特征、变换特征、形状特征、统计特征等图像样本数据的各类静态特征来进行识别检测,其中又有代表性的特征如:
○1Haar小波特征:最早由Papageorgiou和Poggio[8]提出了有关Harr小波的概念; Viola等[9]引入了积分图的概念,加快了Harr特征的提取速度,并将该方法成功应用在了行人检测上。而Haar特征在仅仅用于人脸的检测和人的上半部分身体的检测的时候效果明显,准确度较高,但是将其用于检测行人的全部身体时,实验结果较差,检测结果也不十分准确;
○2HOG特征:Dalal和 Triggs[10]在2005年提出了梯度方向直方图(Histogram of Oriented Gradients,HOG)的概念,并将其应用于行人检测上,在MIT行人检测数据集上获得几乎100%的准确率;而在包含视角、背景和光照等变化的INRIA行人检测数据集上,也取得了大约90%的准确率。HOG特征是目前的全局特征中的主流,在机器学习中,一般配合SVM(支持向量机)来完成行人检测;
○3Edgelet特征:B.Wu 等[11]首先提出了“小边”(Edgelet)特征的这一概念,并在复杂场景应用这一特征来进行行人检测,在CAVIAR行人检测数据集上取得了大约92%的检测准确率;
○4Shapelet特征:Sabzmeydani等[12]在2007年提出了一种通过机器学习而无需手工的方式可以得到的特征,即Shapelet特征。该算法首先从训练样本图像中提取各个方向的梯度,再使用AdaBoost 这一算法对其进行训练,从而得到行人的Shapelet 特征。基于 Shapelet 特征的行人检测算法在INRIA行人检测数据集上取得了90%的行人检测准确率,同时误报率仅仅为0.01%;
○5形状轮廓模板特征:这种方式主要利用了图像中目标行人的边缘轮廓、灰度以及纹理等图像信息构建特征模板,由匹配特征模板以实现对目标行人的检测。Gavrila等[13]
首先提出了基于行人人体边缘轮廓的模板的检测行人的算法,并在此基础上把人体的形状特征以及边缘信息组合起来更好地对人体外观进行表现。基于形状轮廓的检测方法的优势在于其方便省力,由于只在原始图像样本数据上进行演算,不需要对图像进行诸如提取特征这样的处理,从而保留了图像样本数据的所有信息。