图书馆学术视频快速浏览技术中的关键帧提取
夏玉华1, 孙建德2, 亓靖涛1
1山东大学图书馆 济南 250100
2山东大学信息与科学工程学院 济南 250100
摘要

为满足读者对学术视频的大量需求,根据学术视频自身的特点,提出基于镜头结合字幕检测的学术视频快速浏览技术中的关键帧提取算法,实现图书馆学术视频快速传播的目的。

关键词: 学术视频; 快速浏览; 关键帧
中图分类号:G250
Key Frame Extraction on Quick Browsing Approaches to Academic Videos in Library
Xia Yuhua1, Sun Jiande2, Qi Jingtao1
1Library of Shandong University, Jinan 250100, China
2School of Information Science and Engineering, Shandong University, Jinan 250100, China
Abstract

In order to meet the great demand of readers on academic videos, a key frame extraction algorithm on the features of academic videos is proposed. Based on shot segmentation and caption detection, the academic video quick scan scheme is realized, which is helpful for the rapid spread of library academic videos.

Keyword: Academic videos; Quick browsing; Key frame
1 引 言

随着“三网融合”的不断发展,传统的从纸本文献中获取信息的方式已不能满足读者的需要,而从网络、移动设备或者数字电视获取可观看的视频信息已经成为读者学习、工作必不可少的需求,尤其是从网络上获取视频信息。面对新形势下的这种需求,为读者提供一种视频文献的快速浏览方式成为图书馆亟待解决的问题。

然而,面对图书馆资源中的大量学术视频,读者只能通过快进、快退等简单操作进行视频的浏览,很难找到自己感兴趣的视频。因此,学术视频的快速浏览技术应运而生,并成为当前视频处理领域的研究重点。视频摘要是对一段视频内容的简短总结,对实现基于内容的视频快速浏览有着非常重要的作用,而关键帧的提取直接影响摘要的质量。读者通过浏览关键帧可以实现学术视频的快速浏览。此外,学术视频中关键内容的出现或者讲座内容的转换往往以场景转换的形式出现,可见关键帧对学术视频的主要内容具有明确的定位作用。

2 基于镜头结合字幕检测的关键帧提取算法
2.1 国内外现状

目前,国内各类视频的快速浏览技术多是通过提取关键帧或者精彩镜头生成一段简短视频实现的。Campisi等[ 1]在1999年就提出了一种基于小波变换的关键帧提取算法。一般情况下,新闻视频中的主持人是其中的重要人物,检测主持人帧作为新闻视频的关键帧生成摘要,是目前研究较多的一种方法。张婵[ 2]在对新闻视频主持人帧特征分析、音频检测、特征匹配等基础上,设计了一种基于主持人帧的循环检测算法;冀中[ 3]以新闻视频为研究对象,提出基于MPEG压缩域的主持人镜头快速检测算法。国内对体育视频摘要的研究主要集中在基于精彩事件的检测。大多数观众普遍认为进球时的镜头是最精彩的,而且这样的镜头一般都会重放,于是,欧阳建权[ 4]提出利用压缩域的宏块、运动矢量特征进行重放场景检测的算法,形成缩略形式的足球视频摘要。

已有的视频快速浏览技术一般是基于特定的视频类型而提出。但是,学术视频具有与新闻视频、体育视频不同的特点。通过浏览山东大学学术报告厅中的部分理工类、文史类等学术视频发现:学术视频的镜头多采用突变镜头,场景单一,镜头的转换往往伴随着视频主要内容的变化;字幕文本一般在视频帧的底部1/4处且与主讲人的话语同步显示,能够准确表达视频内容;同时,通过对部分学术视频进行逐帧提取浏览发现,同一字幕文本显示的帧数从几帧到几十帧不等。因此,读者只需观看同一字幕帧中的一帧就可以了解几帧到几十帧的视频内容。

基于以上分析,提出一种适合学术视频快速浏览技术的关键帧提取算法。该技术首先根据镜头内容的多少决定被提取关键帧的数量,然后结合字幕检测过滤掉无字幕帧。整个快速浏览技术中关键帧的提取主要分为两部分:镜头分割和字幕检测,其流程如图1所示。

图1 快速浏览技术中关键帧的提取流程

2.2 关键帧算法策略

(1)镜头分割

镜头[ 5]是指摄像机的一次操作所摄制的一组在时空上连续的视频图像序列,是制作视频的最小物理单元。镜头可分成一系列视频帧,多个镜头又可以组成一个场景。可见,镜头是一个承上启下的环节。镜头变换时,前一个镜头经过突变或者渐变的方式过渡到下一个镜头,这时,视频的内容会发生跳跃性的变化。因此,视频的镜头边界检测(Shot Boundary Detection)即镜头变换检测,在提取关键帧的过程中是非常重要的。学术视频的镜头变化多采用突变镜头,在同一个镜头中,主讲人所处的背景基本没有变化。对象(主讲人)虽然移动,但前后两帧之间的直方图差异很小。

针对学术视频的这一特点,采用基于全局直方图的算法来检测镜头边界。定义两帧之间的直方图差异率[ 6]为:

D(i,i+1)=

其中,Hi(j),j=1,…,n表示第i帧的第j个灰度级的像素数目,n表示总灰度级数,P表示帧中的总像素点数。

全局直方图比较算法是一种简单的基于直方图的镜头分割方法。该方法的主要思想是:如果前后两帧的背景不变,两帧中的对象虽然移动但没有变化,那么两帧的直方图差异就较小。与传统的全局直方图比较法相比,通过直方图差异总数与总像素点数相比,将差异率进行了归一化。因此,式(1)的算法更适合于各种尺寸的视频帧设定统一的比较门限。当差异率超过设定阈值的时候,该算法就认为视频内容在此处发生了较大变化而进行镜头分割,提取此处的关键帧。同时,也可以利用此关键帧定位读者想观看的主要内容,即从该帧开始播放视频片段,实现快速浏览并定位视频段落的目的。

(2)灰度变换

在镜头分割过程中,该算法首先直接对由RGB转换得到的灰度帧来进行直方图比较。视频帧灰度化处理的方法有很多:最大值法、平均值法、加权平均值法和色彩系统变换法。本文采用色彩系统变换法[ 7],由RGB与YIQ色彩系统变换公式可知,当R=G=B时,可以得到相应的灰度值为:

L(x,y)=0.299R(x,y)+0.587G(x,y)+0.114B(x,y) (2)

其中,L(x,y) 表示像素点(x,y) 的灰度值,R(x,y) 表示(x,y)位置像素RGB颜色的红分量,G(x,y)表示(x,y)位置像素RGB颜色的绿分量,B(x,y) 表示(x,y)位置像素RGB颜色的蓝分量。

(3)镜头长短判定

在镜头分割过程中,镜头长短的判定对关键帧的提取数量非常关键。一段学术视频通常含有几百个镜头,这些镜头的长短不同,所包含的内容也不同。对于一些较短的镜头,其内容变化不大,一个关键帧就可以代表该镜头的全部内容,而对于较长的镜头,可能需要2-3个甚至更多个关键帧才能代表该镜头的内容。

图2 长短镜头的关键帧

图2所示,镜头1只提取了一个关键帧,而镜头2需要提取三个关键帧。那么就需要根据镜头长短决定提取关键帧的数量。只有这样,才能有效控制关键帧的数量,生成的关键帧才能比较全面地概述视频内容,从而实现基于内容的视频快速浏览,体现关键帧的真正价值。判定镜头长短最简单的方法是根据其持续时间长短来区分,判定算法如下所示:

KF_Number= (3)

其中,KF_Number表示关键帧的数目,S_Time表示镜头的持续时间,T_Thr表示时间门限。

当式(3)中的镜头持续时间S_Time大于时间门限T_Thr时,提取关键帧的数量定为2-4个,若小于T_Thr时,只提取一个关键帧。然而,有的镜头持续时间长但内容并没有变化。因此,采用运动分量来表征内容变化的大小,长短镜头的划分按照如下算法进行:

Video_Shot=

其中, S_Motion= M_F(t)表示镜头的运动量总和,Video_Shot表示镜头的类型,S_Time 表示镜头的持续时间,M_F(t)表示t 与t+1帧之间的相对运动量,M_Thr表示运动量衡量门限。

当镜头持续时间S_Time大于运动量衡量门限M_Thr时,定义为长镜头,反之为短镜头。

(4)字幕检测

通过对山东大学图书馆学术报告厅中的理工类、文史类部分学术视频进行逐帧提取浏览,发现学术视频的字幕帧存在大量的重复帧和少量的无字幕帧。为了减少视频图像后续处理的计算量,该算法采用帧差法删除大量的重复帧和无字幕帧。具体处理过程如图3所示:

图3 帧间比较流程

帧差法[ 8]也称为差分法,是一种常用的检测图像变化的图像处理方法。学术视频的字幕文本均在视频帧的底部约1/4范围内。此处的背景一般比较单一,灰度图像质量较好。因此,只需计算这一部分相邻两帧图像的帧差,这样不会受到图像其余部分的复杂背景和噪声的影响,大大减少了图像帧间比较的计算量。

进行帧间比较时,先设定一个阈值,如果读入的一帧图像与原参考图像的帧差值大于设定的阈值,则把新读入的一帧作为新的参考图像,同时对该帧进行下一步的处理;反之,如果帧差值小于设定的阈值,则该帧与参考帧的字幕相同,删除该帧,继续读入下一帧进行循环处理。

(5)阈值设定

该算法中的阈值为人工设定,因为人工选择阈值可以随着视频的变化而变化,能够取得相对令人满意的效果。但也存在调整速度慢、提取结果受人的主观感觉影响的缺点。当然,也可以采用自动确定阈值的方法,比如常见的基于分水岭算法[ 9]和基于Otsu 算法[ 10]来自动确定阈值。

3 实验结果和分析
3.1 实验设计

为了更清楚地展示该算法的有效性,选用山东大学图书馆电子资源学术报告厅中的理工类、文史类的部分学术视频作为实验视频,采用准确率评价标准,公式如下所示:

η=(5)

其中,η表示准确率,m表示认可人数,k表示不认可人数。

实验方法是随机选择30位读者先浏览关键帧,再观看原始视频,每次实验都会随机选择不同的30个读者。统计认为所有关键帧可以准确表达原始视频的人数(简称:认可人数)和认为不能准确表达原始视频的人数(简称:不认可人数),认可人数与总人数的比值为准确率。

3.2 仿真结果和分析

关键帧的显示如图4所示:

图4 学术视频段的关键帧浏览

关键帧提取算法用Matlab编写源程序。为了更好地比较算法的效果,实验分两段进行,首先对镜头分割后提取的关键帧进行效果测试,然后再对结合字幕检测提取的关键帧进行效果测试,实验结果如表1表2所示。

表1 基于镜头的关键帧
表2 基于镜头结合字幕检测的关键帧

表1表2的仿真实验结果可以看出,无论是基于镜头还是结合字幕检测后的关键帧都比较准确地描述了学术视频的主要内容,虽然基于镜头结合字幕检测的关键帧准确率只略低于镜头的,但关键帧的数量却大幅度减少,这样可以大大减少读者浏览视频的时间,实现学术视频的快速浏览。在提取关键帧的过程中,阈值的选择十分重要。该算法中的阈值选择需要人工设定,这需要通过多次的实验,积累经验来设定比较接近的阈值,以便更快地提取关键帧。如果本算法中的阈值选择是自适应的,就可以在提取关键帧时省去很多人工,也可以减少人的主观感受对关键帧提取的影响。

4 结 语

本文的基于镜头结合字幕检测的关键帧提取算法是基于学术视频的特点提出的。由于学术视频镜头多采用突变,而镜头的转换伴随着视频内容的跳跃而变化,因此,该算法首先分割镜头并根据内容提取一定量的关键帧,这样,关键帧不仅可以供读者浏览,还可以根据感兴趣的帧定位从该帧开始的视频段落。同时,提取的关键帧中还存在少量的重复帧和无字幕帧,需要进一步滤掉,最终得到更少量的字幕关键帧来代表原始视频的内容,而对准确率影响较小。可见,该算法提取的关键帧可以大大缩短读者浏览视频的时间,实现学术视频的快速浏览。

总之,图书馆面对新形势下的“三网融合”,进行学术视频的快速浏览技术研究,尤其是关键帧的提取算法研究,以实现视频资源最大程度的快速共享,对提高图书馆在新时期的视频文献提供能力非常必要。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] Campisi P, Longari A, Neri A. Automatic Key Frame Selection Using a Wavelet Based Approach[J]. Proceedings of SPIE, 1999, 3813: 861-872. [本文引用:1]
[2] 张婵. 新闻视频自动摘要生成算法研究[D]. 西安: 西安电子科技大学, 2005: 15-35. [本文引用:1]
[3] 冀中. 基于多模态信息的新闻视频内容分析技术研究[D]. 天津: 天津大学, 2007: 70-86. [本文引用:1]
[4] 欧阳建权. 压缩域体育视频摘要技术研究[D]. 北京: 中国科学院研究生院, 2005: 55-69. [本文引用:1]
[5] 房海山, 李甫, . Maya影视制作精彩案例解析[M]. 北京: 中国电路出版社, 2005: 215-216. [本文引用:1]
[6] 刘琚, 孙建德. ICA和镜头分割结合的盲视频水印方案[J]. 中国科学E辑, 2005, 35(12): 1266-1276. [本文引用:1]
[7] 钟志光, 卢君, 刘伟荣. Visual C++. NET 数字图像处理实例与解析[M]. 北京: 清华大学出版社, 2003: 64-65. [本文引用:1]
[8] 张娟, 毛晓波, 陈铁军. 运动目标跟踪算法研究综述[J]. 计算机应用研究, 2009, 26(12): 4407-4410. [本文引用:1]
[9] 马秀丽, 焦李成. 基于分水岭-谱聚类的SAR图像分割[J]. 红外与毫米波报, 2008, 27(6): 452-456. [本文引用:1]
[10] 时阳. 新闻视频中文本检测和定位技术的研究[D]. 北京: 北京邮电大学, 2009: 12-22. [本文引用:1]