计算机和网络技术的飞速发展促进了视频资源的快速增长,视频信息的组织、检索与挖掘日益成为国内外研究者广泛关注的研究课题。
视频具有不同于其他媒体形式的显著特征,包括海量性、内容的丰富性、结构的复杂性等。视频数据的特点以及视频资源的飞速增长,使得传统的手工处理方式已不可行,如何借助于计算机、采用自动化手段进行视频信息的组织、检索和挖掘,是当今计算机检索领域面临的一个重要问题。此外,视频信息是典型的大数据,该领域研究也迎合了当今大数据处理与挖掘的发展趋势。
分类是视频挖掘中最常见的研究内容,其目标是按类存放视频各级组成,便于管理、浏览和访问。分类是视频查询和浏览的有效手段,便利了资源方对视频的有效组织以及用户对视频信息的有效使用。
近年来,国外视频分类的典型研究包括Bagheri-Khaligh等[ 1]、Azhar等[ 2]、Kafai等[ 3]、Ekenel等[ 4]、Connolly等[ 5]、Wang等[ 6]、Mithun等[ 7]的研究。例如,Bagheri-Khaligh等[ 1]针对足球视频进行分类,提出最大球衣颜色比例和球衣色彩比例均值等特征。Azhar等[ 2]提出了监控视频中不完整的、背景重叠等物体对象的二元分类框架,通过混沌序列仿真,将MPEG-7视觉描述子结合起来,类别涉及“包含人”、“包含一群人”、“包含车辆”、“包含未知物体”等。Kafai等[ 3]提出了随机多类车辆分类系统,将车辆分成轿车、小型载货卡车、SUV、未知类型4类,从汽车尾灯和车辆尺寸角度抽取特征集,使用动态贝叶斯网络进行分类。Ekenel等[ 4]抽取底层音频特征、视觉特征、感知和结构信息及网络视频标签对电视节目和YouTube视频进行分类,使用SVM分类算法;其中,视觉描述子包括颜色、纹理,音频描述子包括信号能量、过零率、基本频率,感知信息对应于通过人脸识别抽取的信息,结构信息与镜头编辑相关,标签描述子基于TF-IDF公式对YouTube视频进行分类。
国内的代表性研究包括胡颖俊等[ 8]、赵士伟等[ 9]、林彬等[ 10]、李真超等[ 11]的研究。例如,胡颖俊等[ 8]使用包括RGB通道平均值、颜色直方图、Gabor纹理等在内的特征。赵士伟等[ 9]抽取了关键帧颜色数目、颜色直方图均值、颜色直方图方差、主颜色、主色调、最分散颜色、最分散色调、最紧凑颜色、最紧凑色调等特征,并利用决策树算法进行分类。林彬等[ 10]通过logo模板匹配检测并定位出视频中的慢镜头,对其余的正常比赛部分做镜头边界检测完成视频切分;并基于分块的思想,对正常比赛镜头帧计算其各块的场地像素比率值作为特征,利用SVM分类器将正常比赛镜头分为远镜头、中镜头、球员特写或场外镜头三类。
从以上文献可以看出,新特征提取算法的实现是视频分类研究的重点,分类方法上,几乎所有的主流分类挖掘算法都已经被应用到视频处理中。总的来说,目前视频分类挖掘使用的技术多样化、没有固定的模式,各种研究涉及不同的特征及抽取方式、分类方法,以及视频类别的不同选择。
本文主要进行视频新特征的抽取。与以往方法相比,本文更加关注视频的主要对象区域,这也是普通用户在浏览视频时最为关注的部分。本文针对主要对象所代表的局部空间,选择最能够代表视频内容的主要对象区域进行视频表征,并基于新特征进行视频分类挖掘实验。
本文重点进行颜色新特征的抽取。颜色特征是在视频检索中应用最为广泛的视觉特征,颜色往往和视频帧中所包含的物体或场景十分相关。
到目前为止,研究者已经提出了多种颜色特征抽取方法,最著名的包括颜色直方图、颜色矩、颜色聚合向量和颜色相关图等。其中,颜色直方图[ 12]是视频挖掘使用最广泛的视觉特征,颜色矩[ 13]是对颜色直方图的一种改进,无需对特征进行向量化。然而,无论颜色直方图还是颜色矩,都无法表达视频帧的空间信息。针对它们的缺点,研究者提出了颜色聚合向量等[ 14, 15]特征,包含了颜色分布的空间信息,能够获得比颜色直方图更好的检索效果。
与颜色聚合向量类似,本文也引入局部空间信息,在对象分割的基础上,基于主对象进行视觉特征抽取。主对象即视频帧中用户最关心的主要角色,因此笔者将其命名为“主对象”。与颜色聚合向量针对视频帧所有像素进行处理不同,本文方法针对主对象所在的局部空间,不涉及视频帧的所有像素。
在新特征抽取的基础上,进行视频分类挖掘实验,并将基于新特征的挖掘效果与颜色直方图和颜色聚合向量进行对比,分析本文特征抽取的有效性。
(1) 视频预处理
预处理包含两个主要步骤:镜头边界检测和关键帧提取。其中,镜头边界检测基于颜色直方图进行,当连续两帧直方图超过预定的阈值时,认为镜头边界存在;关键帧提取则采用笔者提出的最大最小直方图识别方法,利用信息论的观点,即不同或相关性较小的帧图像比相似的帧图像携带更多的信息,具体算法将在另一篇文章中详细论述。
(2) 区域分割
采用分水岭的区域分割方法[ 16]来获取不同的对象。分水岭算法对微弱边缘具有良好的识别能力,能够得到封闭连续的边缘。另外,该算法得到的汇水盆地,为分析视频帧的区域特征提供了良好的基础。
分割的结果形成视频帧的不同逻辑组成。帧中每一个像素被赋予一个标识,表征图像区域号。区域分割结果如图1所示:
(3) 主对象新特征提取
如前所述,颜色直方图、颜色矩等方法无法表达视频帧的空间分布信息,因此,引入空间分布的颜色特征提取显得十分必要。
本文基于区域分割,引入局部空间信息,进行主对象的识别与颜色特征提取,详细算法见2.2节。
(4) 挖掘实验
在新特征抽取的基础上,基于新特征进行视频分类挖掘实验,并与颜色直方图和颜色聚合向量进行对比,从而验证本文提取方法的有效性。
(1) 算法思想
对象代表了视频最重要的语义信息。在对象分割的基础上,笔者对视频帧进行分析发现,视频帧中的大部分内容为背景信息,最重要的目标对象在视频帧中所占的比例可以认为大致在一半以内。因此,笔者提出了如下基本算法思想:
①根据区域标识码,计算不同对象区域面积;
②统计视频帧一半面积的区域,用于表征主对象;
③结合视频原帧与选定区域,计算主对象颜色新特征。
由于HSV颜色空间更接近人们对颜色的主观认识,因此本文采用该颜色空间。HSV空间的三个分量分别代表色彩 (Hue) 、饱和度 (Saturation) 、亮度 (Value) ,其中,受光照条件影响最大的是V分量,因此在识别目标时,笔者减少了亮度V的权值,以H和S作为判定的主要特征。本文中,H、S、V分别取量化权重为8、3、3,从而形成了72维特征。
(2) 算法流程
主对象特征具体计算流程伪码如下:
for (i:视频帧像素的区域标识矩阵的列数) //计算区域面积
for (j:视频帧像素的区域标识矩阵的行数)
取得当前处理像素 (i,j) 的区域号Flag (i,j) ;
针对区域变量nRegion (包括id,number) ,查找id为
Flag (i,j) 的元素
if (找到)
Flag (i,j) 区域对应的像素数量累加;
else
新的区域,增加新区域的标记;
对nRegion变量进行排序,根据Flag (i,j) 值升序排列;
for (m:区域个数标识) //主对象区域计算
读取nRegion中的当前数据,计算当前区域占整个区域的面积比例Rate (m) ;
将Rate (m) 累加到变量s (s用于计算当前区域的累加面积占视频帧的比例) ;
if (s>0.50)
确定主对象的具体区域并退出;
for (n:主对象所属区域的像素) //主对象新特征计算
根据公式 (1) 和公式 (2) 进行H、S、V的量化与特征值计算;
其中,公式 (1) 如前所述,H、S、V分别量化为8、3、3;公式 (2) 中,Qs和Qv分别是分量s和v的量化级数,这里,Qs=3,Qv=3。
除了上述的主对象颜色特征,本文还结合8维灰度共现纹理矩阵,用于特征的联合挖掘。这样,最终的维度共计80维。
本文使用如下指标表征识别效果:
(1) 准确率
其中,k为类的数目,Ci为分类结果中与Gold Standard (每一个视频所属的正确集合类别) 重合的视频数目,n是测试集的视频数目。
(2) Cohen’s Kappa系数
Cohen’s Kappa系数是一个可靠性的统计度量,公式如下
其中,Pr (a) 为相对观测一致性系数,Pr (e) 为一致性发生的概率。当k值大于0.41时,可以认为结果比较可靠[ 17]。
多种分类算法已被应用于视频挖掘,包括决策树 (Decision Tree) 、贝叶斯 (NaÏve Bayes) 、SVM等。鉴于SVM方法在多维特征挖掘方面的优良效果,本实验采用SVM算法。
不同类型视频的主对象颜色特征分布如图2所示:
其中,图2 (a) 为两个视频帧分别属于电视类及广告类,图2 (b) 展示了这两个不同帧的主对象颜色标准化分布。从图2中可以看出,它们在颜色分布上存在着较为明显的差别。
以电视类目为识别目标,针对表1数据进行挖掘后得到的结果如图3所示,同时为了验证本文提取方法的效果,将提取的基于主对象的视觉特征与著名的颜色直方图[ 12]和颜色聚合向量[ 14]进行对比。
图3中,Histogram代表颜色直方图,CCV代表颜色聚合向量特征。可以看出,无论从准确率还是Kappa值,基于本文方法提取的主对象颜色特征都取得了较好的、同时比颜色直方图和颜色聚合向量更好的效果,从而说明本文提出的特征提取方法的有效性,也说明了本文方法对于空间信息以及视频帧的最重要的语义组成——主要对象的关注是合理的。
根据已有经验,笔者发现,多角度不同特征的联合挖掘能够取得更高的识别准确率。后续的工作中,笔者将融合更多特征进一步提高挖掘效果。
本文主要进行基于主对象的视觉特征提取研究,增加颜色特征提取中对于空间信息的考量,在对象分割的基础上重点考察视频中用户更为关注的主要对象,体现视频帧的局部和细节信息。
在特征抽取的基础上,针对141个视频片段进行分类实验。结果表明,基于本文的抽取方案能够获得较好的挖掘效果,证明本文抽取方法的有效性,同时也为视频信息的浏览、分类导航与检索提供了借鉴。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|