一种应用多储备池回声状态网络的图像语义映射研究*
王华秋1, 王斌1, 聂珍2
1(重庆理工大学计算机科学与工程学院 重庆 400054)
2(重庆理工大学图书馆 重庆 400054)
王华秋, ORCID: 0000-0002-6789-6775, E-mail: wanghuaqiu@163.com

作者简介:王华秋: 提出研究命题、研究思路和实验方案, 论文最终版本修订; 王斌: 采集、分析数据, 算法设计及实现, 论文起草;聂珍: 文献检索及综述。

摘要
目的建立图像低层特征到高层语义的映射, 填补图像检索中的“语义鸿沟”, 以提高检索准确率。方法借鉴集成学习思想, 将多储备池回声状态网络(MESN)应用于图像语义映射模型中。图像低层特征按照类型划分后, 通过不同的储备池训练, 并对训练结果进行线性融合。结果该模型相对于BP神经网络和传统ESN, 平均映射错误率分别下降31.64%和19.28%, 查准率分别提高4.56%和1.86%。【局限】储备池参数通过人工设定, 未构造参数优化算法。结论实验结果证明, 将多储备池回声状态网络应用于图像语义映射中是有效的。
关键词: 图像语义; 回声状态网络; 多储备池; 集成学习
中图分类号:G354.4
Research on Image Semantic Mapping with Multiple-Reservoirs Echo State Network
Wang Huaqiu1, Wang Bin1, Nie Zhen2
1(College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054,China)
2(Chongqing University of Technology Library, Chongqing 400054, China)
Abstract

[Objective] The mapping between low-level visual feature and high-level semantic information is built up to fill the “semantic gap” of image retrieval and improve accuracy. [Methods] Referring to the idea of ensemble learning, Multiple-Reservoirs Echo State Networks (MESN) is applied to semantic mapping model. After the low-level visual features of images are divided by feature types and trained by different reservoirs, the training results are combined linearly. [Results] Compared to BP Neural Network and traditional Echo State Network, the average error rate of MESN decreases by 31.64% and 19.28% respectively, the precision rate increases 4.56% and 1.86% respectively. [Limitations] The parameters of reservoirs are set artificially. Parameter optimization algorithm isn’t constructed. [Conclusions] Experimental results show that the semantic mapping model of Echo State Networks with Multiple-Reservoirs is effective.

Keyword: Image semantic; Echo State; Network Multiple-Reservoirs; Ensemble learning
1 引言

随着计算机技术、Internet网络以及存储技术的发展, 各种形式的数字信息正在以惊人的速度增长。数字图像作为数字信息的重要成员之一, 以其内容丰富、形象生动、清晰明了等特点在社会生活中扮演着越来越重要的角色, 与此同时, 人们对图像检索的需求也越来越高。20世纪90年代, 基于内容的图像检索技术(CBIR)应运而生[1], 该技术与图像识别技术进行了深层次的结合, 但单纯的图像低层特征无法表示图像的内在本质, 深层语义得不到很好的体现, 也就是存在所谓的“ 语义鸿沟” [2]

由于机器学习技术能够很好地获取图像低层特征和文字描述之间的对应关系, 越来越多的研究者将机器学习技术应用于图像的语义映射之中[3, 4, 5], 以解决“ 语义鸿沟” 问题, 并取得了一定的成果。Li等[3]将模糊支持向量机(FSVM)应用于图像分类与检索中, 通过模糊支持向量机计算出样本x对i类的归属程度 ,

将样本x归属到 取值最大的一类, 有效地提高了不可分区域的分类精度。Kundu等[4]提出了一种交互式的图像检索模型, 该模型使用MPEG-7边缘直方图描述符 (EHD)[6]作为低层特征, 通过神经网络预分类器对图像库进行预分类, 利用不同的编号表示被分成的各个子集, 减少了检索时的搜索空间, 提高了检索速度。杨栋等[5]提出了贝叶斯通用背景模型并将其应用到图像语义标注之中, 该方法引入受限的对称Dirichlet分布来描述GMM权重参数的先验分布, 利用Bayes最大后验概率对高斯混合模型参数集进行估计, 具有良好的图像标注精度。但传统神经网络结构复杂, 训练速度慢, 难以满足目前对大数据信息处理的需求。支持向量机虽然训练速度较快但其作为一种二分类器, 对于多分类问题具有一定的局限性。同时目前存在的语义映射方法大多缺乏对特征数据的针对性, 鲁棒性及泛化能力有待提高。

针对上述问题, 本文结合语义映射框架, 尝试性地将回声状态网络分类模型[7]应用于图像语义映射之中。由于回声状态网络以随机稀疏连接的储备池作为隐藏层, 结构相对简单, 并且只需训练储备池至输出层的权值, 训练过程简单快速, 有效地解决了传统神经网络训练速度慢、结构复杂等问题。同时, 为解决图像特征数据间关系复杂、维数较高的问题[8], 引入集成学习思想, 对图像特征按相关性进行划分, 针对划分后的图像特征分别构造储备池形成多个分类器, 并对各分类器得到的分类结果进行集成, 使得各分类器对特征数据更具针对性, 并且能够提高分类器的泛化能力和鲁棒性。

2 图像特征提取

图像的低层特征主要包括图像的颜色、纹理、形状等。本文主要利用图像的颜色矩、灰度共生矩阵以及Gabor小波变换提取图像的低层视觉特征。

(1) 颜色矩[9]能够很好地描述颜色的分布特征。通常提取颜色分量的一阶矩、二阶矩和三阶矩表示图像的颜色分布。一阶矩表示每个颜色分量的平均强度, 二阶矩表示待测区域的颜色方差, 三阶矩表示颜色分量的偏斜度及不对称性。本文提取图像R、G、B三种颜色分量的三个低阶矩, 共9维。

(2) 灰度共生矩阵[10]是对图像上保持距离d的两像素分别具有某灰度的状况进行统计得到的。假设图片共有M× N个像素点, 从某像素点(x, y)开始, 该像素点的灰度级为i, 灰度共生矩阵即统计与其方向角为θ 、距离为d、灰度级为j的像素点同时出现的概率, 假设 为像素点 对应的灰度级, Count(M)表示M情况出现的次数, 由此可将灰度共生矩阵的获取方法概括为公式(1):

(1)

其中, T表示灰度共生矩阵元素个数。本文取通过灰度共生矩阵得到的能量、对比度、相关值以及熵4个特征值分别在0° 、45° 、90° 、135° 方向的最大值、最小值、平均值及标准差值作为训练集, 共16维。

(3) Gabor小波变换[11]与人类视觉系统中简单细胞的视觉刺激响应非常相似。在提取目标的局部空间和频率域信息方面具有良好的特性。Gabor函数是一个用高斯函数调制的复正弦函数, 能够在给定区域内提取局部的频域特征, 本文所用的Gabor滤波器对应的实部如公式(2)所示, 虚部如公式(3)所示。

(2)

(3)

其中:

(4)

(5)

通过实部及虚部滤波后得到的图像如公式(6)所示:

(6)

其中, (x, y)为空间域像素坐标, 分别表示二维高斯函数沿x轴和y轴的标准方差, I为图像灰度值, a表示尺度因子, a-m表示尺度, 表示方向, 表示正弦函数波长, 本文选用1个尺度, , 0° 、30° 、60° 、90° 、120° 、150° , 6个不同的方向, 共6个滤波器。6个不同方向二维Gabor小波如图1所示。图片经过不同方向Gabor小波过滤后的图像如图2所示。

图1 6个不同方向的二维Gabor小波

图2 经不同方向Gabor小波过滤后图像

本文提取不同方向的Gabor小波变换过后结果的能量均值及标准方差作为特征, 共12维。

3 回声状态网络模型
3.1 基本模型

回声状态网络(Echo State Network, ESN)由Jaeger[12]于2001年提出, 其独特之处在于将随机稀疏连接的神经元构成的储备池作为隐藏层, 用以对输入进行高维的、非线性的表示[13]。ESN是一种新型的递归神经网络, 由输入层、储备池、输出层组成, 其结构如图3所示:

图3 回声状态网络结构

假设该网络中输入层有K个输入, 储备池有N个内部连接单元, 输出层有L个输出, 储备池内部单元状态更新方程如公式(7)所示:

(7)

其中, 表示回声状态网络的状态变量, 表示目标输出, 表示输入。f表示储备池处理单元处理函数。 表示输入单元与储备池处理单元的连接权值, W为储备池内处理单元之间的连接权值, 其中 无须训练, 经初始给定后不再发生改变。

网络输出如公式(8)所示:

(8)

其中, 表示储备池与输出单元的连接权值为输出层到储备池的连接权值, 通过状态变量计算得到, 为输出单元处理函数。

3.2 分类模型

回声状态网络常用于解决时间序列预测方面的问题, 2009年, Alexandre 等[7]提出面向静态模式分类的回声状态网络方法。在此基础上, 彭喜元等[14]提出了随机子空间多储备池分类模型, 提高了传统回声状态网络分类模型的泛化能力及分类性能; 郭嘉等[8]提出了基于相应簇的回声状态网络静态分类方法, 将储备池子簇与需分类数据类别数量建立对应关系, 能够更好地满足对不同数据有针对性的分类需求。

分类模型不同于预测模型, 各数据间并不存在依赖关系, 所以回声状态网络分类模型在训练某特征数据对应的状态变量 时保持输入数据不变, 当状态变量的变化量 小于阈值 时, 表示状态变量趋于稳定, 该特征数据对应的状态变量训练完成。

状态变量调整公式如下所示[7]:

(9)

其中, i表示训练迭代次数, n表示样本下标, 一般情况下, 激励函数选择双曲正切函数tanh, 训练完成的条件如下:

(10)

4 语义映射方法
4.1 语义映射框架

图像的语义映射主要是通过分析训练集中图像的特征, 并通过机器学习的方式将训练集中的图像低层特征和语义关键词建立联系, 得到一定的知识或者规则, 之后通过这些知识对新图像进行语义映射, 从而获得新图像的高层语义描述。整个框架主要包括图像低层特征提取、语义训练、样本图片语义映射等环节。本研究采取的语义映射框架如图4所示:

图4 图像语义映射框架

4.2 多储备池回声状态网络语义映射模型

集成学习能有效地提高学习器的泛化能力[15, 16], 是目前机器学习领域重要的研究方向之一。本文借鉴集成学习思想, 针对不同特征提取算法得到的特征数据之间相对独立的特点, 提出多储备池回声状态网络分类模型。该模型将提取出的低层图像特征按类划分, 对不同类型的数据分别构造与其相对应的储备池, 在仿真时将各储备池的映射结果进行线性融合, 提高分类器与特征数据的适应性。其主要结构如图5所示:

图5 多储备池回声状态网络语义映射模型

本文将37维图像低层特征按照提取特征的方法划分为三组, 包括根据图像灰度共生矩阵得到的16维特征, 计算颜色矩得到的9维特征以及通过Gabor小波变换得到的12维特征。

在回声状态网络语义训练过程中, 需要提供训练样本及对应的目标向量, 训练样本即通过计算得到的图像低层特征, 本文用T1、T2、T3表示三个储备池对应的训练样本, 以T1为例, 其组成结构如下:

其中, n代表训练集中样本数量, m代表特征维度。

目标向量主要表示训练样本对应的语义类标号, 各储备池对应的目标向量相同, 本文用D表示目标向量, 定义如下:

其中, n表示训练样本数量, p表示类别数量, 的值为1或0, 分别表示样本n为第p类的正样本或负样本。

训练过程中的关键环节为调整储备池中的状态变量x(n), 由于每组特征数据与储备池中的每个处理单元均对应一个状态变量, 假设储备池中共有N个处理单元, 对所有状态变量进行统一处理, 定义状态变量变化量 , 在训练过程中d及储备池中一个处理单元对应的状态变量变化过程如图6图7所示:

图6 状态变量曲线

图7 状态变量变化量曲线

图6图7可知, 当通过一定次数的训练之后, 状态变量会逐渐趋于稳定, 因此可以设定阈值 , 当状态变量变化量d< 时, 训练结束。由于 过低将导致训练速度过慢, 过高会导致状态变量无法达到稳定状态, 为确保状态变量能够达到稳定状态且不陷入震荡状态, 本文引入状态变量变化速度V, 定义如下:

(11)

正常情况下, V为正值, 当V值趋于0时即说明状态变量趋于稳定, 当V< 时, 即说明状态变量已达到稳定状态。本文定义 即当d< 或V< 时训练结束。

当状态变量训练完毕后, 将x(n)收集至X, 由于集成学习环境易产生过度拟合的情况。因此, 本文采用岭回归[17]的方式计算, 其公式如下:

(12)

其中, k为岭回归参数, I为单位矩阵, 其维度与储备池中处理单元个数N相同。

当得到Wout后, 即可对待测试图像进行语义映射。对待测试图片按照第2节提出的方法进行特征提取, 为适应多储备池分类模型, 同样需要对提取到的特征按照数据提取方式进行划分, 并将划分后的特征数据分别输入至语义映射模型中, 按照训练过程中获取状态变量的方法计算状态变量, 并将状态变量收集至X, 其对应的语义特征向量如下:

(13)

计算出各个储备池对应的语义特征向量后, 对其进行线性求和, 得到最终待测试图像对应的语义信息。

5 实验与结果分析
5.1 实验环境

实验在Windows7 64位操作系统下进行, 测试软件为Matlab 2010b。硬件环境: CPU为Intel酷睿2 2.2GHz双核处理器, 内存为4GB。

5.2 图像语义映射实验

实验选取Corel图片库[18]中的汽车(Bus)、恐龙(Dinosaur)、花(Flower)、马(Horse)、山川(Mountain)以及食物(Food)各100张图片, 共600张图片作为图片库, 每类随机抽出其中的50张作为训练集, 另外50张作为测试集。在实验中, 储备池处理单元数N均为40, 储备池内连接权值W均采用随机生成的方式。BP神经网络采用一层隐藏层, 隐藏层中包含90个神经元, 训练精度目标为10-10, 为确保实验数据的准确性, 全部采取交叉验证的方式进行。

为了验证本文的特征提取算法在语义映射中的效果, 首先对比了在回声状态网络模型下, 分别以灰度共生矩阵特征(Glcm), 颜色矩特征(Color_Moment), Gabor小波特征(Gabor)为特征数据时的分类准确度。不同数据特征在回声状态网络分类模型中的映射错误率如图8所示:

图8 单特征映射效果对比

图8看出, 不同类型的图像特征在不同种类图像的语义映射中表现各有优劣, Mountain类和Food类图片的映射错误率较高。本文将6类图片的映射错误率按三种特征分别计算平均值, 得到每一类特征的整体错误率All, 从整体映射错误率All来看, 通过Gabor小波变换得到的图像特征具有较优的映射效果, 但单一的图像特征得到的语义映射效果不够理想。

图9显示了特征融合后各分类器的映射错误率, MESN对应多储备池回声状态网络语义映射模型, ESN对应单储备池回声状态网络语义映射模型, BPNN对应BP神经网络语义映射模型。

图9 不同分类器语义映射效果对比

图9可以得出以下结论:

(1) 多储备池回声状态网络模型具有最低的语义映射错误率, 相对于传统回声状态网络及BP神经网络, 平均错误率分别相对下降了19.28%和31.64%。具体计算方法是:

|ErrorESN- ErrorMESN| / ErrorESN= 19.28%

|ErrorBPNN- ErrorMESN| / ErrorBPNN= 31.64%

(2) 对比图9中MESN、ESN以及图8中的数据可以看出, 多储备池回声状态网络具有较强的泛化能力, 能够有效提高语义映射精度。

(3) 特征融合后的分类效果明显优于单一特征的分类效果。

为了更直观地显示映射得到的语义信息与目标语义之间的相似程度, 在这里定义样本n与第q类目标语义的相似度程度 如下:

(14)

其中, 表示通过模型计算得到的第n个样本的语义向量, 表示第q类图片的目标语义特征向量, p表示类别数。

本文将n个样本相对于p类图像的语义相似程度矩阵定义为S, 结构如下:

对Sn, p矩阵每一列进行排序, 可以得到每一类中与目标语义相似度最高的图像, 通过查准率表示语义映射能力的大小, 定义如下:

(15)

通过返回不同数量的图片计算各种情况下的查准率, 得到平均查准率曲线如图10所示:

通过图10可以看出, BP神经网络模型以及单储备池回声状态网络模型分别在返回11张、13张图片时出现错误样本, 而多储备池回声状态网络在返回24张图片时出现错误样本, 且在各返回图片数下均保持最高的准确率。因此, 通过多储备池回声状态网络模型得到的语义信息更具鲁棒性。当返回50张图片时, ESN及BPNN对应的查准率分别为90%和87.67%, 而本文提出的MESN模型对应的查准率为91.67%, 查准率分别相对提高1.86%及4.56%。具体计算方式为:

|MESN-BPNN|/BPNN=|91.67%-87.67%|/87.67%=4.56%

|MESN-ESN|/ESN =|91.67%-90%|/90%=1.86%

回声状态网络语义映射模型在具有较高映射精度的情况下同时具有较快的训练速度, 在实验中MESN的平均训练时间仅为1.53s, 而BP神经网络的平均训练时间为48.24s。

5 结语

本文将多储备池回声状态网络分类模型应用于图像语义映射中, 实验提取图像灰度共生矩阵的能量、对比度、相关值、熵4个标量, RGB颜色空间的颜色矩以及Gabor小波变换后图像的均值及方差作为图像特征, 分类器采用多储备池回声状态网络分类模型, 并对储备池中状态变量的调整方式进行优化。实验结果表明本文提出的语义映射方法是可行的、有效的。下一步工作将在大型图像数据库中进行实验, 并提取更具区分力的图像低层特征, 扩展特征向量。与此同时进一步优化回声状态网络储备池的结构, 使其对特征数据更具针对性及适应性。

参考文献
[1] Gudivada V N, Raghavan V V. Content-based Image Retrieval System[J]. IEEE Computer, 1995, 28(9): 18-22. [本文引用:1] [JCR: 2.039]
[2] Smeulder A W M, Worring M, Santini S, et al. Content-based Image Retrieval at the End of the Early Years[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1349-1380. [本文引用:1] [JCR: 4.795]
[3] Li J, Huang S, He R, et al. Image Classification Based on Fuzzy Support Vector Machine [C]. In: Proceedings of the 2008 International Symposium on Computational Intelligence and Design, Wuhan, China. 2008: 68-71. [本文引用:2]
[4] Kundu M K, Chowdhury M. Image Retrieval Using NN Based Pre-classification and Fuzzy Relevance Feedback [C]. In: Proceedings of the 2010 Annual IEEE India Conference (INDICON), Kolkata, India. 2010: 1-4. [本文引用:2]
[5] 杨栋, 周秀玲, 郭平. 基于贝叶斯通用背景模型的图像标注[J]. 自动化学报, 2013, 39(10): 1674-1680.
(Yang Dong, Zhou Xiuling, Guo Ping. Image Annotation with Bayesian Universal Background Model[J]. Acta Automatica Sinica, 2013, 39(10): 1674-1680. ) [本文引用:2] [CJCR: 0.572]
[6] Manjunath B S, Ohm J R, Vasudevan V V, et al. Color and Texture Descriptors[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2001, 11(6): 703-715. [本文引用:1] [JCR: 1.819]
[7] Alexand re L A, Embrechts M J, Linton J. Benchmarking Reservoir Computing on Time-independent Classification Tasks [C]. In: Proceedings of the 2009 International Joint Conference on Neural Networks, Atlanta, GA, USA. 2009: 89-93. [本文引用:3]
[8] 郭嘉, 雷苗, 彭喜元. 基于相应簇回声状态网络静态分类方法[J]. 电子学报, 2011, 39(3): 14-18.
(Guo Jia, Lei Miao, Peng Xiyuan. Echo State Networks for Static Classification with Corresponding Clusters[J]. Acta Electronica Sinica, 2011, 39(3): 14-18. ) [本文引用:2] [CJCR: 0.686]
[9] Stricker M A, Orengo M. Similarity of Color Images [C]. In: Proceedings of the SPIE Storage and Retrieval for Image and Video Databases III, 1995: 381-392. [本文引用:1]
[10] Haralick R M, Shangmugam K, Dinstein Its’Hak. Texture Feature for Image Classification [J]. IEEE Transactions on Systems, Man and Cybernetics, 1973, SMC-3(6): 610-621. [本文引用:1]
[11] Gabor D. Theory of Communication[J]. IEE, 1946, 93(3): 429-457. [本文引用:1]
[12] Jaeger H. The “Echo State” Approach to Analysing and Training Recurrent Neural Networks [R]. German National Reasearch Center for Information Technology, 2001. [本文引用:1]
[13] 郭嘉. 回声状态网络分类方法及其应用研究[D]. 哈尔滨: 哈尔滨工业大学, 2011.
(Guo Jia. Research on Echo State Networks Classification Algorithm and Application [D]. Harbin: Harbin Institute of Technology, 2011. ) [本文引用:1] [CJCR: 0.3432]
[14] 彭喜元, 郭嘉, 王建民. 基于随机子空间与多储备池的分类方法[J]. 仪器仪表学报, 2011, 32(11): 2487-2492.
(Peng Xiyuan, Guo Jia, Wang Jianmin. Rand om Subspace and Multiple Reservoirs Based Classifier[J]. Chinese Journal of Scientific Instrument, 2011, 32(11): 2487-2492. ) [本文引用:1] [CJCR: 0.785]
[15] 唐耀华, 高静怀, 包乾宗. 一种新的选择性支持向量机集成学习算法[J]. 西安交通大学学报, 2008, 42(10): 1221-1225.
(Tang Yaohua, Gao Jinghuai, Bao Qianzong. Novel Selective Support Vector Machine Ensemble Learning Algorithm[J]. Journal of Xi’an Jiaotong University, 2008, 42(10): 1221-1225. ) [本文引用:1]
[16] 张春霞, 张讲社. 选择性集成学习算法综述[J]. 计算机学报, 2011, 34(8): 1399-1410.
(Zhang Chunxia, Zhang Jiangshe. A Survey of Selective Ensemble Learning Algorithms[J]. Chinese Journal of Computers, 2011, 34(8): 1399-1410. ) [本文引用:1] [CJCR: 1.796]
[17] Jaeger H, Lukoevicius M, Popovici D, et al. Optimization and Applications of Echo State Networks with Leaky-Integrator Neurons[J]. Neural Networks, 2007, 20(3): 335-352. [本文引用:1] [JCR: 1.927]
[18] Image Rank Machine [DB/OL]. [2014-09-15]. http://www.ci.gxnu.cn/cbir. [本文引用:1]