基于高阶语义相关的子空间跨模态检索方法研究*

图1 子空间跨模态检索模型

Fig.1 The Model of Cross-modal Retrieval

针对CCA等方法的不足,Pereira等^[7]在多模态数据间具有相关性的假设基础上,提出相关匹配(Correlation Matching,CM)、语义匹配(Semantic Matching,SM)、语义相关匹配(Semantic Correlations Matching, SCM)的概念及方法,经过实验验证得出,同时考虑多模态数据的低阶底层特征信息和语义信息(SCM)得到的检索结果更好。Zhai等^[8]引入语义联合图正则约束,提出异构度量学习(Joint Graph Regularized Heterogeneous Metric Learning, JGRHML)的方法,在文本、图像等5种模态数据之间进行交叉检索。丁恒等^[9]采用偏最小二乘方法挖掘异构特征的关联,通过实验验证了偏最小二乘法比CCA方法更能够映射出有效的子空间,取得较好的检索结果。相对CCA等方法,此类方法考虑了多模态数据的语义标注信息,能够获得较为有效的公共子空间映射。由于忽略了公共子空间的结构特征,该类方法在公共子空间映射过程中计算复杂,且映射的公共子空间不能很好反映多模态数据特征关联性,跨模态检索结果仍不够理想。

在JGRHML等方法的基础上,Zhai等^[10]结合数据的监督信息和稀疏选择特性,提出基于联合表示的跨模态检索方法,即将多模态数据的结构和语义信息融合在一个模型中进行优化,从而有效挖掘数据的相关性。Wang等^[11]提出联合特征选择的子空间跨模态检索方法(Joint Feature Selection and Subspace Learning, JFSSL),该方法考虑了多模态数据结构的稀疏特性。代刚等^[12]根据多模态数据的相同标注语义,采用超图约束,提出结合语义相关和拓扑关系的跨媒体检索方法,能有效挖掘多模态数据之间的高阶相关性。Peng等^[13]和卓昀侃等^[14]采用半监督的训练方法,通过增加训练数据的多样性和可靠性,对5种跨模态数据集进行联合建模,挖掘数据的细粒度信息,从而有效提高语义辨别能力。此外,在考虑语义标注的同时,利用多模态数据稀疏性、距离不变性等结构特征^[15,16,17],能有效提升跨模态数据之间的相关性,进而提高检索精度。因此,在高阶语义相关性的基础上,挖掘多模态数据的结构信息,有助于提高跨模态检索效率。

在现有方法的基础上,本文提出一种基于高阶语义相关的子空间跨模态检索方法。该方法结合多模态数据的标注信息,对跨模态数据高阶语义信息进行相关性处理,引入高阶相关性;同时,考虑多模态数据的结构特征,采用 $L_{21}$ 范数^[18,19]对跨模态数据进行联合特征选择。实验结果表明,本文提出的方能法能取得较好的跨模态检索结果。

3 基于高阶语义相关的子空间跨模态检索

基于高阶语义相关的子空间跨模态检索方法包括基于高阶语义相关的子空间映射模型和跨模态检索度量两个主要部分。其中基于高阶语义相关的子空间映射模型包括模型构建和模型优化求解两大模块,具体又可以细分为模态原始特征提取、相关语义提取、目标函数构建、子空间映射求解、图像文本公共空间5个部分,模型框架如图2所示。

图2

图2 基于高阶语义相关的子空间跨模态检索模型

Fig.2 The Framework of Subspace Cross-modal Retrieval Based on High-order Semantic Correlation

3.1 基于高阶语义相关的子空间映射模型

（1）模型构建

构建子空间映射模型是本文的关键,该模型将难以直接度量的异构数据转化为可以直接度量的同构数据。子空间映射通常采用某种数据映射关系将原本维度大小不同的数据映射为维度大小相当的数据,即采用如式(1)^[10,11]的映射方式。

(1)

\min_{P_{1}, \dots, P_{n}} \sum_{α=1,2,…,n} {‖X_{α}^{T} P_{α} - Y‖}_{F}^{2} + λ Ω

其中, $X$ 表示模态原始特征数据, $P$ 表示子空间映射, $Y$ 表示子空间, $Ω$ 表示对模型的多约束(如图约束、结构约束等), $λ$ 表示正则化参数。通常采用最小二乘的思想求解映射后的子空间矩阵,由于该模型未考虑语义相关性,检索精度普遍不高。跨模态数据检索通常为多种模态数据之间交叉检索,本文以文本和图像两种模态为例构建子空间映射模型,多模态情况可类比推理。为了学习有效的子空间映射,使跨模态的异质数据同构化,在模型中考虑标签语义信息,引入语义相关矩阵如式（2）所示。

(2)

S_{ij} = \{\begin{array}{l} 1 & I_{i} 和 T_{j} 属于 L 中同一类 \\ 0 & 其他 \end{array}

其中, $I \in R^{N \times d_{1}}$ 和 $T \in R^{N \times d_{2}}$ 分别表示具有 $N$ 个样本标签的图像和文本数据集。 $L \in R^{N \times C}$ 表示数据的标签矩阵, $N$ 代表样本数, $C$ 代表标签种类。该相关矩阵能较充分地挖掘高阶语义相关性。同时引入 $L_{21}$ 范数对模型进行约束, $L_{21}$ 范数如公式(3)^[19]所示。

(3)

{‖X‖}_{2,1} = \sum_{i=1}^{n} \sqrt[]{\sum_{j=1}^{t} X_{i, j}^{2}} = \sum_{i=1}^{n} {‖X_{i, :}‖}_{2}

其中, $X_{i, :}$ 表示矩阵 $X$ 的第 $i$ 行, $X_{:, j}$ 表示矩阵 $X$ 的第 $j$ 列。可以看出,矩阵 $X$ 的 $L_{21}$ 范数为矩阵 $X$ 每一行的 $L_{2}$ 范数之和,不仅要求矩阵具有元素稀疏特征,也要求矩阵具有行稀疏的特性。由于 $L_{21}$ 范数对矩阵的稀疏性结构要求,能较好地保持数据原有的结构化特性,使模型优化过程中能保持较好的鲁棒性,并能够实现特征选择的功能。

基于高阶语义相关的子空间映射模型如式(4)所示。

(4)

\min_{P_{I}, P_{T}} \sum_{α=I,T} ‖X_{α}^{T} P_{α} - S‖ + λ \sum_{α=I,T} {‖P_{α}‖}_{21}

其中, $X$ 表示原始数据特征, $P$ 表示映射矩阵, $S$ 为跨模态数据相关矩阵,即是对多模态数据高阶语义信息进行相关性处理后的结果。 $λ$ 表示平衡参数。模型前半部分考虑多模态数据的高阶语义相关性,后半部分考虑多模态数据结构特征。

（2）模型优化求解

由于引入 $L_{21}$ 范数,使得式(4)的求解为非凸问题,难以求解。本文采用迭代优化的方法,逐步优化求解公共子空间映射。首先根据 $L_{21}$ 范数性质,定义 $φ (x) = \sqrt[]{x^{2} + ε}$ ,则 ${‖P_{α}‖}_{21}$ 可以用 ${\sum_{i=1}^{d_{α}} φ (‖P_{α}^{i}‖}_{2})$ 表示,其中 $ε$ 表示平滑项, $d_{α}$ 表示数据维度。可以证明 $φ (x) = \sqrt[]{x^{2} + ε}$ 满足如下条件^[10,18,20]： $x \to φ (x)$ 在R上为凸函数; $x \to φ (\sqrt[]{x})$ 在R上为非凸函数; $\forall x \in R,$ $φ (x) = φ (- x)$ ; $φ (x) 在 R 上为 C^{1}$ ; $当 \lim_{x \to \infty} φ (x) / x^{2} = 0 时, φ^{''} (0^{+}) > 0$ 。

根据定理1对 $φ (\cdot)$ 进行优化,采用半正定优化方法^[17]。

定理1：假设 $φ (\cdot)$ 满足上述的所有条件,对于固定的 ${‖P^{i}‖}_{2}$ ,存在双重潜在函数,如公式（5）所示。

(5)

φ ({‖P^{i}‖}_{2}) = \inf_{S \in R} \{s {‖P^{i}‖}_{2}^{2} + ϕ (s)\}

其中, $s$ 由 $φ (\cdot)$ 的最小化函数决定。

根据定理1,式(4)可以转化为:

$\min_{P_{I}, P_{T}} \sum_{α=I} {‖X_{α}^{T} P_{α} - S‖}_{F}^{2} + λ \sum_{α=I} ‖P_{α}^{T} R_{α} P_{α}‖$

其中, $R_{α} = diag (r_{α})$ , $r_{α}$ 是 $L_{21}$ 范数的辅助向量,第 $i$ 个元素 $r_{α}^{i} = 12 {‖P_{α}^{i}‖}_{2}$ , $r_{α}$ 的元素满足规则如公式（6）所示。其中, $r_{α}^{i}$ 不为0,否则算法不收敛。

(6)

r_{α}^{i} = \frac{1}{2 \sqrt[]{{‖P_{α}^{i}‖}_{2}^{2} + ε}}

然后,对式(4)中 $P_{α}$ 进行微分,令微分结果等于零,可以得到公式(7)的结果。

(7)

X_{α} (X_{α}^{T} P_{α} - S) + λ R_{α} P_{α} = 0

经过整理可以得到投影矩阵的求解公式,如公式(8)所示。

(8)

P_{α} = (X_{α} X_{α}^{T} + λ R_{α})^{- 1} X_{α} S

基于高阶语义相关的子空间跨模态检索的算法流程如下：

输入：有标签的图像和文本标签数据集 $I \in R^{N \times d_{1}}$ , $T \in R^{N \times d_{2}}$ ;标签数据集 $L \in R^{N \times C}$ ;迭代次数 $n$

输出：投影矩阵 $P_{α}$ ,其中 $α = I, T$

①计算跨模态相关矩阵 $S \in R^{N \times N}$

②设置 $t = 0$ ,初始化投影矩阵 $P_{α}$

③循环

a:通过公式(6)求解 $r_{α}^{t}$

b:通过公式(8)求解投影矩阵

$P_{α} = (X_{α} X_{α}^{T} + λ R_{α})^{- 1} X_{α} S$

c： $t = t + 1$

直到： $t = n$ 或收敛

通过上述的优化过程分析,首先利用文本和图像的标签数据集求解多模态数据之间的语义相关矩阵 $S$ ,然后设置迭代次数,进入算法主循环求解子空间映射矩阵 $P$ 。

3.2 跨模态检索度量

对于文本和图像两种模态的数据,通过上述过程的求解,分别得到相应的子空间映射矩阵 $P_{T}$ 和 $P_{I}$ ,则文本和图像的特征可分别映射为： $y_{T} = X_{T}^{T} P_{T}$ 和 $y_{I} = X_{I}^{T} P_{I}$ 。其中 $y_{T}$ 和 $y_{I}$ 为文本和图像相同维度的特征表示,因此可以直接进行度量比较。本文采用余弦相似度度量数据向量之间的相似性。余弦相似度度量对绝对数值不敏感,更注重维度之间的差异,因此能有效表现出文本和图像之间投影后数据的相似度和变化趋势,如公式(9)^[21]所示。

(9)

\cos θ = \frac{\sum_{i=1}^{n} (A_{i} \times B_{i})}{\sqrt[]{\sum_{i=1}^{n} (A_{i})^{2}} \times \sqrt[]{\sum_{i=1}^{n} (B_{i})^{2}}} = \frac{A^{T} \cdot B}{‖A‖ \times ‖B‖}

4 实验

实验中,设置了图像检索文本和文本检索图像两个检索任务以验证本文方法的准确性。并在Wiki、NUS-WIDE、XMedia三个公开数据集上进行验证。通过反复测试,公式(7)中的 $λ$ 值设置为0.01,在Wiki、NUS-WIDE、XMedia三种数据集上的迭代次数 $n$ 分别设置为7,20和30时,算法收敛。

4.1 实验数据集

（1）Wiki图像-文本数据集：该数据集包含2 866个图像-文本对^[1]。每对数据中,文本数据为描述人物、风景等的一段话,和图像数据相对应。每个图像-文本对对应一个语义标签。标注数据为10类语义,每个图像-文本对属于其中一类。选择其中2 173个样本作为训练集,剩余的693个样本作为测试集。其中图像采用128维的SIFT特征,文本采用10维的潜在狄利克雷分配模型。

（2）NUS-WIDE数据集^[22]：每幅图像对应一段相应的文字表述,可以看成和Wiki数据集类似的图像-文本对。图像和文本对均对应81类语义标签,本文选取出现频率较高的21类,每幅图像和文本对应其中的一个或多个标签。数据集中包含72 219个图像-文本对,其中图像特征采用128维的SIFT特征,文本特征采用81维的标注信息。训练集和测试集分别占据数据集的50%。

（3）XMedia跨模态检索数据集^[7]：该数据集包含文本、图像、音频、视频和3D模型5种模态数据。选择其中的图像和文本数据作为检索样本。图像和文本各5 000个样本,为配对数据。其中图像特征为4 096维的CNN特征,文本特征为3 000维的BOW特征,标签为20类的单标签数据集。每个图像和文本属于其中的一类。选取5 000个样本中的4 000个作为训练集,剩余1 000个作为测试集。

4.2 评价指标

(1)采用机器学习中常用的MAP(平均检索精度)作为评价指标,评估算法的整体实验效果^[1,2]。MAP为查询样本检索精度的平均值。其中： $AP = \frac{1}{T} \sum_{r=1}^{R} P (r) δ (r)$ , $T$ 为相关文件总数, $R$ 为查询文件总数。 $P (r)$ 表示前 $r$ 个检索样本的检索精度, $δ (r) = 1$ 表示和检索样本相关, $δ (r) = 0$ 表示和检索样本不相关。

(2)采用精度-召回曲线描述样本的精度和召回率之间的关系^[1]。如果一种算法的精度-召回曲线的线下面积大于另外一种算法,则说明该算法的性能更好。

4.3 结果与分析

与CCA^[4]、SCM^[7]、JGRHML^[8]、JFSSL^[11]4种经典的子空间跨模态检索方法进行比较,验证本文方法的有效性。其中CCA属于无监督方法,采用数据低阶低层特征信息构造特征子空间,未考虑数据之间的语义联系。其他三种方法属于有监督的方法,结合原始数据的语义标注信息构造语义共享子空间。SCM和JGRHML方法均考虑了跨模态数据的标注信息,但未对公共映射子空间的结构进行约束,未能对跨模态联合特征选择做出很好处理。JFSSL结合前几种方法的优点,利用图像的标注信息和数据结构约束进行子空间映射,取得了较好的结果。本文在JFSSL的基础上,将跨模态数据的语义信息进行相关性处理,去掉图约束部分,减小了模型图的复杂度和计算难度,取得了较好的检索结果。表1至表3分别为在Wiki、NUS-WIDE、XMedia三种数据集上的检索结果对比。图3至图5分别为不同方法在三种数据集上的精度-召回曲线。

表1 不同方法在Wiki数据集上的MAP值

Table 1 MAP in Different Methods on Wiki Dataset

检索方法	图像检索文本	文本检索图像	检索平均值
CCA	0.254 9	0.184 6	0.219 8
JGRHML	0.283 0	0.211 9	0.247 5
SCM	0.350 1	0.249 6	0.299 9
JFSSL	0.306 3	0.227 5	0.266 9
OURS	0.418 4	0.403 9	0.411 2

新窗口打开| 下载CSV

表2 不同方法在NUS-WIDE数据集上的MAP值

Table 2 MAP in Different Methods on NUS-WIDE Dataset

检索方法	图像检索文本	文本检索图像	检索平均值
CCA	0.217 8	0.182 4	0.200 1
JGRHML	0.342 5	0.286 6	0.314 6
SCM	0.374 6	0.290 2	0.332 4
JFSSL	0.403 5	0.374 7	0.389 1
OURS	0.497 5	0.462 8	0.480 1

新窗口打开| 下载CSV

表3 不同方法在XMedia数据集上的MAP值

Table 3 MAP in Different Methods on XMedia Dataset

检索方法	图像检索文本	文本检索图像	检索平均值
CCA	0.122 0	0.120 7	0.121 4
JGRHML	0.460 1	0.362 9	0.411 5
SCM	0.633 5	0.621 0	0.627 3
JFSSL	0.812 6	0.776 5	0.794 6
OURS	0.983 9	0.975 2	0.979 6

新窗口打开| 下载CSV

图3

图3 Wiki数据集上的精度-召回曲线

Fig.3 Precision-Recall Curve on Wiki Dataset

图4

图4 NUS-WIDE数据集上的精度-召回曲线

Fig.4 Precision-Recall Curve on NUS-WIDE Dataset

图5

图5 XMedia数据集上的精度-召回曲线

Fig.5 Precision-Recall Curve on XMedia Dataset

通过上述实验结果对比可以看出本文方法在三个数据集上都取得了较好的结果。在Wiki数据集上的MAP平均值相对于CCA、JGRHML、SCM和JFSSL等方法,分别提高了0.191 4、0.163 7、0.111 3、0.144 3;在NUS-WIDE数据集上分别提高了0.280 0、0.165 5、0.147 7、0.091 0;在XMedia数据集上分别提高了0.858 2、0.568 1、0.352 3、0.185 0。通过对比分析可以发现,仅考虑跨模态低阶底层特征相关性的CCA方法,检索效率较低。跨模态数据之间最大的关联是语义关联,尤其在数据特征差别大,维度差异较明显时检索效率更低。利用数据的语义标注信息进行子空间构造,能够挖掘跨模态数据的高阶相关性,相对CCA而言,SCM、JGRHML、JFSSL等都取得了较好的结果。进一步对比发现,将数据语义标注信息和公共子空间稀疏结构特征结合在一起的JFSSL效果较好。JFSSL在利用语义标注信息时直接采用语义标注的分类信息,在跨模态数据相关性方面仍有提升空间。基于此,本文对跨模态数据的语义标注进行相关性处理,提取高阶语义相关特征,因此在进行子空间映射时投影效果更好,而且模型复杂度更低,跨模态检索精度更高。

5 结语

本文考虑多模态数据的高阶语义相关性而不是原始标注信息,同时引入 $L_{21}$ 范数对模型进行约束,利用交替迭代优化方法求解公共子空间映射。该方法能将异构的图像和文本结构特征数据映射为具有语义相关性的同构数据,实现跨模态数据之间的交叉检索。在Wiki、NUS-WIDE和XMedia三个公开数据集上进行验证,证明本文算法较好地提升了跨模态检索MAP值。

本文的不足之处在于基于语义相关的子空间跨模态检索方法对有监督数据效果较好,对于半监督或者无监督数据效果不明显。在接下来的研究中,将聚焦半监督、无监督跨模态数据的检索工作,以弥补本文算法的不足。

作者贡献声明

朱路：提出研究思路,设计研究方案;

田晓梦：进行实验,处理、分析数据;

曹赛男,刘媛媛：论文起草;

朱路,田晓梦：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: tianxiaomeng2016@126.com。

[1] 朱路, 田晓梦. Wiki.mat. Wiki数据集整理结果.

[2] 朱路, 田晓梦. NUS-WIDE.mat. NUS-WIDE数据集整理结果.

[3] 朱路, 田晓梦. XMedia.mat. XMedia数据集整理结果.

[4] 朱路, 田晓梦. MAP.mat. MAP(平均检索精度)实现结果.

[5] 朱路, 田晓梦. P-R.mat. 精度-召回曲线实现结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Rasiwasia

, Pereira J

, Coviello

, et al.

A New Approach to Cross-modal Multimedia Retrieval

[C]// Proceedings of the ACM International Conference on Multimedia. ACM, 2010: 251-260.

[本文引用: 4]

[2]

Peng

, Huang

, Zhao

An Overview of Cross-media Retrieval: Concepts, Methodologies, Benchmarks and Challenges

[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2018,28(9):2372-2385.

[3]

Hardoon D

, Szedmak

, Shawe-Taylor

Canonical Correlation Analysis: An Overview with Application to Learning Methods

[J]. Neural Computation, 2004,16(12):2639-2664.

[4]

Wei

, Croft W

LDA-Based Document Models for Ad-Hoc Retrieval

[C]// Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 178-185.

[5]

Zheng

, Zhou

, Zou

, et al.

Facial Expression Recognition Using Kernel Canonical Correlation Analysis (KCCA )

[J]. IEEE Transactions on Neural Networks, 2006,17(1):233-238.

[6]

李广丽, 刘斌, 朱涛, 等.

基于优选典型相关分量的跨媒体检索模型

[J]. 山东大学学报: 工学版, 2018,48(5):42-50.

( Li

Guangli

, Liu

Bin

, Zhu

Tao

, et al.

Cross-media Retrieval Model Based on Choosing Key Canonical Correlated Vectors

[J]. Journal of Shandong University: Engineering Science, 2018,48(5):42-50.)

[7]

Pereira J

, Coviello

, Doyle

, et al.

On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,36(3):521-535.

DOI:10.1109/TPAMI.2013.142 URL [本文引用: 3]

[8]

Zhai

, Peng

, Xiao

Heterogeneous Metric Learning with Joint Graph Regularization for Cross-Media Retrieval

[C]// Proceedings of the 27th AAAI Conference on Artificial Intelligence. AAAI, 2013.

[9]

丁恒, 陆伟.

基于相关性的跨模态信息检索研究

[J]. 现代图书情报技术, 2016(1):17-23.

URL [本文引用: 1]

[目的]梳理基于相关性的跨模态信息检索中的基本策略和核心问题,从提升检索效果的角度探讨偏最小二乘法用于特征子空间投影的优劣。[方法]在Wikipedia跨模态信息检索数据集上,分别采用LDA和BOW模型作为文本和图像资源的特征表达方式,以余弦距离作为相似度度量方法,利用最小二乘法替代典型相关性分析法学习特征子空间投影函数。[结果]从P@K、MAP和NDCG三个检索评价指标上,对比分析典型相关性分析、偏最小二乘回归、偏最小二乘相关三种特征子空间投影法对跨模态信息检索结果的影响,结果表明偏最小二乘相关法具有最佳效果。[局限]偏最小二乘法在处理数据时假设数据之间的关系是线性的,数据基向量之间是正交关系,因而无法解决非线性、非正交问题。[结论]使用偏最小二乘相关法学习的特征子空间投影与原始空间信息的一致性更强,跨模态信息检索结果更稳定。

( Ding

Heng

, Lu

Wei

A Study on Correlation-based Cross-Modal Information Retrieval

[J]. New Technology of Library and Information Service, 2016(1):17-23.)

URL [本文引用: 1]

[10]

Zhai

, Peng

, Xiao

Learning Cross-Media Joint Representation with Sparse and Semisupervised Regularization

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014,24(6):965-978.

DOI:10.1109/TCSVT.2013.2276704 URL [本文引用: 3]

Cross-media retrieval has become a key problem in both research and application, in which users can search results across all of the media types (text, image, audio, video, and 3-D) by submitting a query of any media type. How to measure the content similarity among different media is the key challenge. Existing cross-media retrieval methods usually focus on modeling the pairwise correlation or semantic information separately. In fact, these two kinds of information are complementary to each other and optimizing them simultaneously can further improve the accuracy. In this paper, we propose a novel feature learning algorithm for cross-media data, called joint representation learning (JRL), which is able to explore jointly the correlation and semantic information in a unified optimization framework. JRL integrates the sparse and semisupervised regularization for different media types into one unified optimization problem, while existing feature learning methods generally focus on a single media type. On one hand, JRL learns sparse projection matrix for different media simultaneously, so different media can align with each other, which is robust to the noise. On the other hand, both the labeled data and unlabeled data of different media types are explored. Unlabeled examples of different media types increase the diversity of training data and boost the performance of joint representation learning. Furthermore, JRL can not only reduce the dimension of the original features, but also incorporate the cross-media correlation into the final representation, which further improves the performance of both cross-media retrieval and single-media retrieval. Experiments on two datasets with up to five media types show the effectiveness of our proposed approach, as compared with the state-of-the-art methods.

[11]

Wang

, He

, Wang

, et al.

Joint Feature Selection and Subspace Learning for Cross-modal Retrieval

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016,38(10):2010-2023.

[本文引用: 3]

[12]

代刚, 张鸿.

基于语义相关性与拓扑关系的跨媒体检索算法

[J]. 计算机应用, 2018,38(9):2529-2534.

( Dai

Gang

, Zhang

Hong

Cross-media Retrieval Algorithm Based on Semantic Correlation and Topological Relationship

[J]. Application Research of Computers, 2018,38(9):2529-2534.)

[13]

Peng

, Zhai

, Zhao

, et al.

Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016,26(3):583-596.

[14]

卓昀侃, 綦金玮, 彭宇新.

跨媒体深层细粒度关联学习方法

[J]. 软件学报, 2019,30(4):884-895.

( Zhuo

Yunkan

, Qi

Jinwei

, Peng

Yuxin

Cross-media Deep Fine-grained Correlation Learning

[J]. Journal of Software, 2019,30(4):884-895.)

[15]

Deng

, Tang

, Yan

, et al.

Discriminative Dictionary Learning with Common Label Alignment for Cross-Modal Retrieval

[J]. IEEE Transactions on Multimedia, 2016,18(2):208-218.

[16]

Zhang

, Ma

, Li

, et al.

Cross-modal Retrieval Using Multi-ordered Discriminative Structured Subspace Learning

[J]. IEEE Transactions on Multimedia, 2017,19(6):1220-1233.

[17]

Zhang

, Ma

, Li

, et al.

Generalized Semi-supervised and Structured Subspace Learning for Cross-modal Retrieval

[J]. IEEE Transactions on Multimedia, 2017,20(1):128-141.

[18]

, Tan

, Wang

, et al.

L(2,1) Regularized Correntropy for Robust Feature Selection

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012.

[19]

Yang

, Shen

, Ma

L2,1-norm Regularized Discriminative Feature Selection for Unsupervised Learning

[C]// Proceedings of the 22nd International Joint Conference on Artificial Intelligence. AAAI, 2011.

[20]

Nikolova

, Ng M

Analysis of Half-Quadratic Minimization Methods for Signal and Image Recovery

[J]. SIAM Journal on Scientific Computing, 2005,27(3):937-966.

[21]

张振亚, 王进, 程红梅, 等.

基于余弦相似度的文本空间索引方法研究

[J]. 计算机科学, 2005,32(9):160-163.

( Zhang

Zhenya

, Wang

Jin

, Cheng

Hongmei

, et al.

An Approach for Spatial Index for Text Information Based on Cosine Similarity

[J]. Computer Science, 2005,32(9):160-163.)

[22]

Chua T

, Tang

, Hong

, et al.

NUS-WIDE: A Real-world Web Image Database from National University of Singapore

[C]// Proceedings of the ACM International Conference on Image and Video Retrieval. ACM, 2009.