(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 110781806 A(43)申请公布日 2020.02.11
(21)申请号 201911012572.0(22)申请日 2019.10.23
(71)申请人 浙江工业大学
地址 310014 浙江省杭州市下城区潮王路
18号
申请人 杭州市地铁集团有限责任公司运营
分公司(72)发明人 王宪保 孙任强 张柯军 胡芳铁
谭振宙 何祖敏 (74)专利代理机构 杭州求是专利事务所有限公
司 33200
代理人 邱启旺(51)Int.Cl.
G06K 9/00(2006.01)G06K 9/62(2006.01)
权利要求书1页 说明书4页 附图2页
(54)发明名称
一种基于YOLO的行人检测追踪方法(57)摘要
本发明公开了一种基于YOLO的行人检测追踪方法,属于信息工程技术领域,该方法包括:网络模型训练,视频采集,视频输入,目标行人预测,行人轨迹跟踪,报警或提示。本发明采用YOLO网络判别模型,以及分类法实现行人追踪,利用提取的背景和对象特征,把要跟踪的对象从背景中区分出来,进而获得图像帧的位置信息,精度比传统的生成式模型更高。
CN 110781806 ACN 110781806 A
权 利 要 求 书
1/1页
1.一种基于YOLO的行人检测追踪方法,其特征在于,具体包括以下步骤:步骤1,网络模型训练:训练YOLO网络模型,训练后的模型包含各识别目标及名字,设置置信度阈值,将置信度大于等于置信度阈值的目标用“person”标记;
步骤2,视频采集:采集摄像头采集的视频,并将视频输入至服务器或超脑智能网络硬盘录像机;
步骤3,视频输入:使用OpenCV中的Video Writer将步骤2的视频输入的每一帧进行保存,保存的图像像素缩放到0~1之间,得到缩放的帧图像;
步骤4,目标行人预测:将步骤3缩放的帧图像输入至所述步骤1的YOLO网络模型中,对帧图像中是否包含行人进行判断,如果包含用边界框标记,否则不做任何处理;
步骤5,行人轨迹跟踪:将步骤4检测包含行人的每一帧图像预测用for循环连接,利用OpenCV的可视化,将每一帧图像行人边界框的中点连接,形成目标行人跟踪轨迹。
步骤6,报警或提示:当采集区域内通过步骤2-5的方法检测到行人时,用声光报警的方式警示行人已进入该区域,并同时提醒工作人员有人进入采集区域。
2.根据权利要求1所述工作方法,其特征在于,步骤1包括如下子步骤:1.1预训练:YOLO网络结构共有26层,包括24个卷积层和2个全连接层,首先使用ImageNet1000类数据集训练YOLO网络的前20个卷积层、1个平均池化层和1个全连接层,训练前使用OpenCV的ReSize将ImageNet1000类数据集中的训练图片分辨率调整至224×224,得到20个卷积层权重文件。
1.2训练:将步骤1.1得到的前20个卷积层权重文件初始化YOLO模型前20个卷积层的网络参数,再随机初始化4个卷积层和2个全连接层,用PASCAL VOC 20类标记数据集对YOLO模型进行训练,训练前使用OpenCV的ReSize将PASCAL VOC 20类数据集中的训练图片分辨率调整至448×448。
1.3模型参数确认:收集行人图像,并用LabelImg工具制作成标记数据集,用该标记数据集继续训练YOLO模型,当置信度大于等于置信度阈值时,在配置文件Config中将识别类型修改为Classes=[‘person’]。
3.根据权利要求1所述工作方法,其特征在于:所述置信度阈值为0.7。4.根据权利要求1所述工作方法,其特征在于:步骤4的边界框标记采用如下方法:
(x,y,w,h,Score_confidence) (2)在目标行人预测时,Score_confidence的值由式(1)确定,其中Pr(Object)表示行人是否真正出现在网格中,若出现则为1,不出现为0。
表示预测框和实际框之间面积的重
叠比例,pred表示预测框的区域,truth值表示实际框的区域,实际框的区域是数据集中已经标记好的真实值。
YOLO模型实际检测行人时会直接输出式(2)中的五个值,其中坐标(x,y)表示预测的边界框的中心与网格界线的相对值,(w,h)代表预测的边界框的宽度和高度相对于整幅图像的宽、高度的比例,其值在0~1之间。
2
CN 110781806 A
说 明 书
一种基于YOLO的行人检测追踪方法
1/4页
技术领域
[0001]本发明涉及信息工程技术领域,尤其涉及一种基于YOLO行人检测追踪方法。背景技术
[0002]现如今,视频监控系统已经被广泛安装在各个公共场所中,这些场所包括但不限于广场、户外森林公园道路、住宅楼入口等处,如何检测多场景图像中的行人一直是近年来研究的热点。[0003]目前,现有的行人检测包括如下步骤:区域建议、特征提取、模式分类组成;但是行人检测面临着尺度变化范围大、外观和姿态复杂、光照遮挡等外部因素影响等困难。在许多实际应用场景中,对行人检测的速度、精度和模型大小还有较高要求。现有技术中对这三个方面的研究可归结为两类:基于背景建模的方法和基于统计学习的方法,都取得了一定的成果,然而基于背景建模的方法鲁棒性不高,抗干扰能力较差,而基于统计学习的方法受训练样本的影响较大,且应对真实场景的能力不够。发明内容
[0004]为解决上述问题,本发明提供了一种基于YOLO的行人检测追踪方法,利用提取的背景和对象特征,把要跟踪的对象从背景中区分出来,进而获得图像帧的位置信息,专一地辨别背景和前景,获得更高的行人追踪精度。[0005]为了实现上述目的,本发明是通过以下方案实现的:一种基于YOLO的行人检测追踪方法,具体包括以下步骤:[0006]步骤1,网络模型训练:训练YOLO网络模型,训练后的模型包含各识别目标及名字,设置置信度阈值,将置信度大于等于置信度阈值的目标用“person”标记;[0007]步骤2,视频采集:采集摄像头采集的视频,并将视频输入至服务器或超脑智能网络硬盘录像机;[0008]步骤3,视频输入:使用OpenCV中的Video Writer将步骤2的视频输入的每一帧进行保存,保存的图像像素缩放到0~1之间,得到缩放的帧图像;[0009]步骤4,目标行人预测:将步骤3缩放的帧图像输入至所述步骤1的YOLO网络模型中,对帧图像中是否包含行人进行判断,如果包含用边界框标记,否则不做任何处理;[0010]步骤5,行人轨迹跟踪:将步骤4检测包含行人的每一帧图像预测用for循环连接,利用OpenCV的可视化,将每一帧图像行人边界框的中点连接,形成目标行人跟踪轨迹。[0011]步骤6,报警或提示:当采集区域内通过步骤2-5的方法检测到行人时,用声光报警的方式警示行人已进入该区域,并同时提醒工作人员有人进入采集区域。[0012]进一步地,步骤1包括如下子步骤:[0013]1.1预训练:YOLO网络结构共有26层,包括24个卷积层和2个全连接层,首先使用ImageNet1000类数据集训练YOLO网络的前20个卷积层、1个平均池化层和1个全连接层,训练前使用OpenCV的ReSize将ImageNet1000类数据集中的训练图片分辨率调整至224×224,
3
CN 110781806 A
说 明 书
2/4页
得到20个卷积层权重文件。[0014]1.2训练:将步骤1.1得到的前20个卷积层权重文件初始化YOLO模型前20个卷积层的网络参数,再随机初始化4个卷积层和2个全连接层,用PASCAL VOC 20类标记数据集对YOLO模型进行训练,训练前使用OpenCV的ReSize将PASCAL VOC 20类数据集中的训练图片分辨率调整至448×448。[0015]1.3模型参数确认:收集行人图像,并用LabelImg工具制作成标记数据集,用该标记数据集继续训练YOLO模型,当置信度大于等于置信度阈值时,在配置文件Config中将识别类型修改为Classes=[‘person’]。[0016]进一步地,所述置信度阈值为0.7。[0017]进一步地,步骤4的边界框标记采用如下方法:
[0018][0019][0020]
(x,y,w,h,Score_confidence) (2)
在目标行人预测时,Score_confidence的值由式(1)确定,其中Pr(Object)表示行
表示预测框和实际框之间面积
人是否真正出现在网格中,若出现则为1,不出现为0。
的重叠比例,pred表示预测框的区域,truth值表示实际框的区域,实际框的区域是数据集
中已经标记好的真实值。
[0021]YOLO模型实际检测行人时会直接输出式(2)中的五个值,其中坐标(x,y)表示预测的边界框的中心与网格界线的相对值,(w,h)代表预测的边界框的宽度和高度相对于整幅图像的宽、高度的比例,其值在0~1之间。[0022]与现有技术相比,本发明具有如下有益效果:本发明使用YOLO算法作为行人检测的算法,并利用OpenCv强大的功能及丰富的接口处理采集来的视频。用提取的背景和对象特征,把要追踪的对象从背景中区分出来,并用分类法实现行人追踪,将追踪到的轨迹显示在工作站,提示工作站工作人员。并在某些禁区设置声光报警,在检测到误入的行人后给予相应的警示。本发明为了训练出最好的YOLO行人检测模型,从小区监控、地铁站监控、马路监控中收集了大量的行人照片制作成数据集。故在检测精度、速度上大大的提高,并具有更好的泛化能力,应用场景更加的广泛。附图说明
[0023]图1是本发明行人检测追踪方法的流程图;[0024]图2是YOLO网络结构图;[0025]图3是YOLO模型工作流程图。
具体实施方式
[0026]下面结合附图对本发明的技术方案做进一步解释。[0027]本发明采用的YOLO的行人检测追踪系统,包括:用于采集目标区域视频并转化为数字图像信号的网络摄像头;用于训练和运行YOLO网络模型,读取并保存网络摄像头信息,进行数字图像分析的服务器或超脑智能网络硬盘录像机;用于设定禁区大小、报警规则,查看、回放视频录像以及视频中的行人标记、运动轨迹,报警,查看、打印报警信息的工作站,
4
CN 110781806 A
说 明 书
3/4页
包括包括电脑主机、显示器、键盘鼠标、声光报警仪、打印机等;用于将电信号转换成光信号后进行光传输组网的光纤交换机。
[0028]如图1为本发明行人检测追踪方法的流程图,具体包括以下步骤:[0029]步骤1,网络模型训练:训练YOLO网络模型,训练后的模型包含各识别目标及名字,设置置信度阈值,将置信度大于等于置信度阈值的目标用“person”标记。[0030]步骤1分为如下子步骤:[0031]1.1预训练:YOLO网络结构如图2所示,YOLO网络结构共有26层,包括24个卷积层和2个全连接层,首先使用ImageNet1000类数据集训练YOLO网络的前20个卷积层、1个平均池化层和1个全连接层,为了提高训练的速度训练前使用OpenCV的ReSize将ImageNet1000类数据集中的训练图片分辨率调整至224×224,得到20个卷积层权重文件。[0032]1.2训练:将步骤1.1得到的前20个卷积层权重文件初始化YOLO模型前20个卷积层的网络参数,再随机初始化4个卷积层和2个全连接层,用PASCAL VOC 20类标记数据集对YOLO模型进行训练,为了提高训练的精度训练前使用OpenCV的ReSize将PASCAL VOC 20类数据集中的训练图片分辨率调整至448×448。YOLO模型工作流程如图3所示,输入一张448×448的图像,输出一个S×S×(5B+C)的张量(tensor)。其中S×S为YOLO模型将输入图像分割成网格的大小,本发明中采用官方推荐的7×7。B为每个网格识别物体的个数,从模型计算速度考虑,选择B=2,C为每个模型可以识别物体的种类,由于PASCAL VOC 20类数据集有物体20类,故C=20。所以整个YOLO模型输出一个7×7×30的张量。[0033]1.3模型参数确认:收集行人图像,并用LabelImg工具制作成标记数据集,用该标记数据集继续训练YOLO模型,当置信度大于等于置信度阈值时,在配置文件Config中将识别类型修改为Classes=[‘person’],以此方式将模型功能调整为只识别“人”。[0034]经过反复试验、测试将所述置信度阈值为0.7。[0035]步骤2,视频采集:采集摄像头采集的视频,并将视频输入至服务器或超脑智能网络硬盘录像机;[0036]步骤3,视频输入:使用OpenCV中的Video Writer将步骤2的视频输入的每一帧进行保存,保存的图像像素缩放到0~1之间,得到缩放的帧图像;[0037]步骤4,目标行人预测:将步骤3缩放的帧图像输入至所述步骤1的YOLO网络模型中,对帧图像中是否包含行人进行判断,如果包含用边界框标记,否则不做任何处理;[0038]步骤4的边界框标记采用如下方法:
[0039][0040][0041]
(x,y,w,h,Score_confidence) (2)在目标行人预测时,Score_confidence的值由式(1)确定,其中Pr(Object)表示行
表示预测框和实际框之间面积
人是否真正出现在网格中,若出现则为1,不出现为0。
的重叠比例,pred表示预测框的区域,truth值表示实际框的区域,实际框区域是数据集中已经标记好的真实值,
[0042]
越大,表示行人检测的准确率越高。
YOLO模型实际检测行人时会直接输出式(2)中的五个值,其中坐标(x,y)表示预测
的边界框的中心与网格界线的相对值,(w,h)代表预测的边界框的宽度和高度相对于整幅图像的宽、高度的比例,其值在0~1之间。
5
CN 110781806 A[0043]
说 明 书
4/4页
步骤5,行人轨迹跟踪:将步骤4检测包含行人的每一帧图像预测用for循环连接,
利用OpenCV的可视化,将每一帧图像行人边界框的中点连接,形成目标行人跟踪轨迹。[0044]步骤6,报警或提示:当采集区域内通过步骤2-5的方法检测到行人时,用声光报警的方式警示行人已进入该区域,并同时提醒工作人员有人进入采集区域。[0045]本发明收集大量不同方向、角度、场景、光线下的行人照片制作成数据集。利用YOLO算法速度快、精度高、泛化能力强的特点,结合自制数据集训练出了一个更好的用于检测行人的YOLO模型。相较于传统的HOG+SVM方法,本发明的模型无论从识别精度还是速度上都有了很明显的提升,并且在适用范围上也更加的广泛。[0046]以上所述的仅为本发明的优选实施例,并非因此本发明的范围,凡是利用本发明说明书内容所作的等效结构变换,或直接或间接运用附属在其他相关产品的技术领域,均同理包括在本发明的保护范围内。
6
CN 110781806 A
说 明 书 附 图
1/2页
图1
7
CN 110781806 A
说 明 书 附 图
2/2页
图2
图3
8