罗志强:北京国铁华晨通信信息技术有限公司,工程师,北京,100070
林肯:北京大学信息科学技术学院,研究生,北京,100871
摘要:
在客流计数的实现方法中,计算机视觉方式具有实时、准确、抗干扰能力强和经济适用的优势。本文比较了常用的客流计数算法,并针对火车站等与公共交通有关的人员密集场所实现了基于视频分析的区域式客流计数算法。实验表明:提出的算法具有良好的环境适应性,在系统配置要求不高的条件下准确率高,易于操作,实时性强。
关键词:
客流计数;特征回归;FAST特征
0引言
随着社会经济的发展,智能视频监控在日常生活中起着越来越重要的作用,其中客流计数应用以其实用性和直观展示的效果得到了广泛的关注。在商业区,客流计数的结果可以为运营商提供获取商机的信息;在公共交通领域,客流计数对于疏散拥挤人流,安排日常工作等具有指导意义;在安全领域,客流的急剧变化或者过于密集可能意味着特殊事件的发生,对此,客流计数系统可以自动报警提醒。
基于计算机视觉的客流计数方法具有实时、准确、抗干扰能力强和经济实用等优势,正在逐渐成为客流计数的主流方法。Davies等[1]的工作是采用计算机视觉技术自动从人群中提取信息的早期研究者之一,他们提出采用像素层级的信息预测人群的人数,在背景剪除算法提取前景后提取边缘特征,前景像素数或者边缘特征再通过边缘与人数的线性模型和卡尔曼滤波器的优化,预测出客流结果。Yang等[2]提出了一种多摄像机的方法来分割拥挤视频中的人并计数,他们用一组图像传感器,通过网络聚集结果轮廓,并对场景的视觉凸壳计算出二维投影,进而从背景中分割出前景物体。此方法的优点是系统不需要计算出不同视角下的特征对应关系,因此计算代价是与摄像机数目线性相关的。使用每个传感器上计算出的轮廓和相应的投影变换,作者提出了一种几何算法计算人数的界限和人员的可能位置。然而,在非常拥挤的环境中,有的物体可能在各个视角下都被隐藏起来而根本无法定位个人。Kong[3]提出了一种基于学习的方法用于估算人群中的人数。他们采用物体区域的边缘方向和直方图作为特征,采用归一化应对摄像机的透视变换,最后使用基于前馈神经网络的模型从特征预测出人数。Chan等[4]提出了一种基于特征的运动分割算法,并结合高斯过程回归实现人群计数。他们首先使用混合动态纹理模型将人群分割成不同的方向,对每个方向的聚类提取块特征(面积,周长,外周边缘方向,周长面积比),内部边缘特征(总边缘像素数,边缘方向,闵科夫斯基维数)和纹理特征(同质,能量,熵)。这些特征经过归一化减少摄像头透视现象的影响,而后使用高斯过程回归来连接特征与每个块中的人数。Albiol等[5]提出的算法思想很朴素,首先抽取感兴趣区域中的Harris角点特征,通过块匹配计算光流判定特征点是否运动,运动特征点数通过训练好的线性模型回归到人数,最终结果通过低通滤波来滤除噪声。该算法思路清晰简单,在户外场景的实验也显示了其实用性,但其未考虑透视变换的影响,存在不能判断特征点归属(人或车辆),人员静止时计数不准的缺点。Conte等[6]在文献[5]的基础上,提出了改进算法。通过实验对比分析,尺度变化对人身上的特征点数影响较大,他们采用了具有尺度不变和旋转不变的SURF特征点替代Harris特征点,通过光流的判定,筛选出运动特征点,并对运动特征点聚类,对每个聚类提取出特征(特征点数,特征密度,与摄像机距离),最后采用ε-SVR回归器将每个聚类对应到人数。在透视变换明显的场景中,此方法比Albiol[5]的方法效果更好,但SURF特征点的计算和聚类分析都是耗时的操作,使得算法很难应用于实用。为了达到视频监控中实时性的需求,Conte等[7]又提出了一种基于SURF特征点的回归算法。考虑透视变换的影响,把视频图像按竖直轴划分为若干块,每块的高度是一个人在画面中占有的高度,不同块中的运动SURF特征点被赋予不同的权重,最终得到的加权值经过回归器估算出相应区域中的人员数目。经过这样的改进,在速度上就能够实现实时。Conte提出的两种算法[6][7]仍然未能摆脱Albiol[5]算法的限制:无法区分人和车辆,静止人的特征点无法判别。本文首先从指定区域中抽取出FAST(Features from Accelerated Segment Test)特征点,根据帧间的光流信息,筛选出运动特征点。我们提出了一种基于历史信息的方法,可以有效地区分出因人员静止等原因造成的静止特征点。按照本文提出的透视变换补偿算法,赋予抽取出的与人相关的特征点不同的权重。最后,通过分析特征加权和与人数之间的关系,建立回归模型,通过回归分析计算出每一帧中的人数。
1算法流程……
2FAST特征点抽取……
3光流计算……
4历史图分析……
5透视补偿加权……
6回归模型分析……
7后处理……
8结束语
本论文提出的区域式客流计数算法训练方便,可以实现快速的安装,调试和使用。参数的设置和模型的训练等,均可在较短的时间内实现。因而,本算法具有较强的适应性。算法在特征的选择,模型的选择,透视补偿等方面,做了精心的挑选和权衡,使得算法能以高效率运行,达到实时监控的目的。相对于其他间接型算法而言,本算法能处理人员短时停留的情况,使得算法对真实场景更为稳健。缺点是对于一个新的摄像头的设置,需要重新训练回归模型和透视补偿函数,而数据的标定往往是非常繁琐和耗时的,人工的参与度因此而增加。算法适用于人员中度密集,人员可以短暂停留,无大量人员长期保持静止,运动物体基本上是人的场景,公共交通场所是此类型的典型场所。从第六章的实验结果可以看到,本算法能够达到90%以上的准确率,能应对复杂的拥挤情况。但相对其他直接型算法而言,在人数较少时,算法的准确率表现出明显的不足。
参考文献
[1] A.C. Davies, J.H. Yin and S.A. Velastin, “Crowd monitoring using image processing,”Electronics and Communication Engineering Journal, vol. 7, no. 1,pp. 37–47, 1995.
[2] D.B. Yang, N. Héctor, H. González-Ba and L.J. Guibas, “Counting peoplein crowds with a real-time network of simple image sensors,” 9thInternational Conference on Computer Vision, pp. 122-129, 2003.
[3] D. Kong, D. Gray and H. Tao, “A viewpoint invariant approach for crowdcounting,” 18th International Conference on Pattern Recognition, vol. 3, pp. 1187–1190, 2006.
[4] A.B. Chan, Z. Liang, and N. Vasconcelos, “Privacy preserving crowd monitoring:Counting people without people models or tracking,” Computer Vision and Pattern Recognition, pp. 1–7, 2008.
[5] A. Albiol, M.J. Sillaand J.M. Mossi, “Videoanalysis using corner motion statistics,” IEEE International Workshop on Performance eva luation of Tracking and Surveillance, pp. 31–38, 2009.
[6] D. Conte, P. Foggia, G. Percannella,F. Tufano and M. Vento, “A method for counting people in crowded scenes,”Advanced Video and Signal Based Surveillance, pp. 225-232, 2010.
[7] D. Conte, P. Foggia, G. Percannella, F. Tufano and M. Vento,“An effective method for counting people in video-surveillance applications,”6th International Conference on Computer Vision Theory and Applications, 2011.
[8] B.D. Lucas and T. Kanade, “An iterative image registration technique with anapplication to stereo vision,” Proceedings of the 7th International Joint Conference on Artificial Intelligence, pp. 121–130, 1981.
[9] G.Bradski and A.Kaehler, “Learning OpenCV: Computer Vision with the OpenCV Library,”O'Reilly Media, pp. 323-329, 2008.
[10] S.F. Lin, J.Y. Chen and H.X Chao, “Estimation of number of people in crowded scenes using perspective transformation,”Systems, Man and Cybernetics, Part A: Systems and Humans, vol. 31, no. 6, pp. 645-654, 2001.