数据分析与知识发现, 2020, 4(1): 63-75 doi: 10.11925/infotech.2096-3467.2019.0505

研究论文

基于深度学习的知识表示研究:网络视角*

余传明,,1, 李浩男2, 王曼怡2, 黄婷婷2, 安璐3

1中南财经政法大学信息与安全工程学院 武汉 430073

2中南财经政法大学统计与数学学院 武汉 430073

3武汉大学信息管理学院 武汉 430072

Knowledge Representation Based on Deep Learning:Network Perspective

Yu Chuanming,,1, Li Haonan2, Wang Manyi2, Huang Tingting2, An Lu3

1School of Information and Security Engineering, Zhongnan University of Economics and Law,Wuhan 430073, China

2School of Statistics and Mathematics, Zhongnan University of Economics and Law, Wuhan 430073, China

3School of Information Management, Wuhan University, Wuhan 430072, China

通讯作者: * 余传明, ORCID:0000-0001-7099-0853, E-mail:yucm@zuel.edu.cn

收稿日期: 2019-05-14   修回日期: 2019-10-21   网络出版日期: 2020-01-25

基金资助: *本文系国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”.  71974202
中南财经政法大学中央高校基本科研业务费专项资金资助“大数据视角下的中美贸易战观点挖掘研究”的研究成果之一.  2722019JX007

Received: 2019-05-14   Revised: 2019-10-21   Online: 2020-01-25

摘要

【目的】 从知识网络视角探究如何更好地表示知识对象的语义关系。【方法】 在已有网络表示学习算法的基础上,借助于集成学习和深度学习思想,提出组合式知识网络表示学习模型(Combined Knowledge Network Representation Learning,CKNRL)。【结果】 在中英文新闻平行语料的知识网络链接预测任务上,CKNRL模型的AUC取值为0.929,高于单一的网络表示算法DeepWalk(0.925)、Node2Vec(0.926)和SDNE(0.899),验证了CKNRL模型的有效性。【局限】 实证研究仅建立在共词网络的基础上,尚未检验CKNRL模型在更多类型的知识网络链接预测中的效果。【结论】 通过建立融合模型能够更好地表示知识对象之间的语义关系。

关键词: 知识表示 ; 深度学习 ; 网络表示学习 ; 链接预测

Abstract

[Objective] This paper explores better representation models for the semantic relationship among knowledge objects.[Methods] Based on the existing algorithm of network representation learning, we proposed a combined knowledge network representation learning model (CKNRL), with integrated learning and deep learning techniques.[Results] We examined our new model with the knowledge network link prediction task of Chinese and English news parallel corpus. The AUC value of the CKNRL model was 0.929, which was higher than those of the traditional algorithms, i.e. DeepWalk(0.925), Node2Vec(0.926) and SDNE(0.899).[Limitations] Our study was based on the word co-occurrence network, and more research is needed to examine the CKNRL model for link prediction on more types of knowledge networks.[Conclusions] The semantic relationship among knowledge objects can be better represented by the proposed fusion model.

Keywords: Knowledge Representation ; Deep Learning ; Network Representation Learning ; Link Prediction

PDF (838KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

余传明, 李浩男, 王曼怡, 黄婷婷, 安璐. 基于深度学习的知识表示研究:网络视角*. 数据分析与知识发现[J], 2020, 4(1): 63-75 doi:10.11925/infotech.2096-3467.2019.0505

Yu Chuanming. Knowledge Representation Based on Deep Learning:Network Perspective. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 63-75 doi:10.11925/infotech.2096-3467.2019.0505

1 引 言

随着大数据时代的到来,知识成为时代创新进步的主要动力来源,知识网络作为信息传播的载体,可以对生产的大规模知识进行有效传递与分享,并逐渐成为情报学领域的研究热点。然而,随着互联网的迅速发展,在不同领域和不同模态等情境下,知识网络的表示呈现出高度的多样性和复杂性。传统的网络表示方法为基于图的表示,使用独热向量(One-Hot)形式的邻接矩阵描述图的存储结构。近年来产生了DeepWalk[1]、LINE[2]、Node2Vec[3]和SDNE[4]等一系列新的网络表示学习算法,这些方法得到的向量在向量空间中具有表示和推理的能力,同时可以作为机器学习模型的输入,并运用到网络可视化、节点分类、链接预测、社区发现等任务中。但多种网络表示学习方法的出现也为算法的选择带来困难,因此如何利用已有的网络表示学习算法更好地表示知识对象的语义关系成为一个重要的研究问题。

在上述背景下,在已有网络表示学习算法的基础上,本文借助集成学习和深度学习思想,提出组合式知识网络表示学习模型(Combined Knowledge Network Representation Learning, CKNRL),试图提高网络表示学习算法对知识对象语义关系的表达能力,解决多种知识网络表示学习算法难以选择的问题。

2 研究现状

2.1 知识网络

对于科学知识网络,按照不同的知识网络节点可以构建不同的知识网络,主要包括共词网络(以关键词作为网络节点)、合作网络(以合作者作为网络节点)、引文网络(以引用文献作为网络节点)等。

(1)在共词网络方面,当前主要有两方面的研究,一方面是共词网络基础上的词聚类分析以及知识结构演化分析。具体研究包括:郑彦宁等[5]利用研究前沿识别指标提出新的基于关键词共现的研究前沿识别方法,并将该方法应用到LED领域,有效识别出LED领域的研究前沿;商宪丽等[6]使用微博文本构建动态共词网络实现文本特征提取,实验结果表明该方法相比传统的文档频率法取得更优的微博话题识别效果,因此更适合用于微博文本的特征提取;孙耀吾等[7]基于2001年以来SSCI管理学期刊中的141篇技术标准化主题文献,从时间和高频词汇两个维度表现学术关注度,并运用共词分析方法分阶段进行网络的可视化研究;马红等[8]和蔡永明等[9]在传统的LDA模型中加入共词网络建立共词网络LDA模型,并针对中文文本进行主题分析,取得了较好的效果;宫雪等[10]突破共词网络“描述”阶段的研究,针对生物医学领域的主题词构建共词网络,并进一步研究未来链接预测的问题,是情报学领域的一项新探索。另一方面研究词语在网络中的影响力评价,当前这方面的研究较少。高继平等[11]从共词网络中连线的抽取与计量、计量指标的定义方面展开研究,并应用到关键技术的识别中,弥补了单个词在关键技术应用中语境不足、难以定位具体技术的缺陷。

(2)在合作网络方面,国内的研究主要集中在产学研合作、学科专利合作、学者影响力评测等领域。李纲等[12]依据社群发现方法,对燃料电池电动汽车领域的专利权人合作网络进行实证分析,揭示团队的研发主题与合作方式,为专利分析和产业发展提供指导。吕鹏辉等[13]将科研合作网络细化为作者、机构和国家这三种合作网络,通过深度分析和横向对比,验证作者合作网络的非连通性和稀疏性,同时对合作网络方法的局限性进行总结。陈伟等[14]以新能源汽车为研究对象构建加权专利合作网络,并使用社会网络的分析方法,探究该网络典型的结构特征。范如霞等[15]提出高合作学者识别算法和学者影响力模式识别算法,分别对高合作学者及其动态学术影响力模式进行识别,实验结果表明两种算法均有较好的识别效果。施晓华等[16]基于传统的科学合作网络及典型的社区发现方法,使用情报学领域论文作为数据建立科学合作网络,实现了社区数量的自动获取。

(3)在引文网络方面,吕鹏辉等[17]利用SSCI数据库收集了70多万情报学领域的文献数据,分析文献被引的时序变化情况,并绘制引文网络图以研究中心度高的节点;隗玲等[18]基于引文网络主路径分析方法存在的问题,使用元路径分析度量引文节点基于其关联属性的相关性,并与搜索路径计数遍历结合构建新的遍历权重指标,进一步促进了引文网络主路径方法的发展。此外,知识网络也被应用到社区网络、药物网络中,王忠义等[19]将知识网络应用到网络问答社区中,研究用户节点在网络问答社区中的知识传递效用,结果表明节点的知识存量越少,网络学习效率越高。范馨月等[20]构建药物靶点蛋白质相互作用网络,并基于网络的拓扑属性,运用机器学习方法有效预测潜在药物靶点。

2.2 网络表示学习

网络表示学习算法是网络分析中一个热点研究方向,其要求主要有两点:

(1)通过学习网络的表示保留网络的拓扑结构信息;

(2)根据网络的表示学习进行网络推断任务,如节点分类任务、链接预测任务等。

近年来,一系列新的网络表示算法被相继提出。Perozzi等[1]在2014年提出使用语言模型中的Word2Vec来学习图的邻接矩阵的隐含表示的算法DeepWalk,通过简单的随机游走策略生成一些路径后,作为文本语料输入Word2Vec中学习节点的向量表示。此后,Tang等[2]提出LINE算法,通过定义一个精巧的目标函数保留节点的一阶或二阶相似度,并将每个节点的两类特征表示连接起来作为最终表示,由于考虑了网络结构中更高阶的信息,从而获得了较好的效果。Grover等[3]在DeepWalk的基础上针对其随机游走的策略提出改进算法Node2Vec,使得随机游走的过程兼顾了广度优先搜索和深度优先搜索,从而提高了随机游走生成路径的质量。Wang等[4]也提出一个深度学习模型SDNE(Structural Deep Network Embedding),该模型在半监督学习模型中联合优化节点的一阶相似度和二阶相似度,能够同时保留网络的局部结构和全局结构。其中,DeepWalk和Node2Vec使用的都是浅层神经网络,在刻画网络结构上有先天的局限,相较而言,SDNE使用了多层自编码器,因此具有更好的表现。

现有的网络表示学习算法已被应用到跨领域情感分析、商品推荐、观点检索、链路预测等多个方面。余传明等[21]提出一种跨领域知识迁移的深度表示模型,采用无监督的特征提取方法Sparse Filtering,充分利用无标注文档中与语言无关的语义表示,实现将不同领域的文档投影到同一空间,并将其应用到跨领域情感分析任务中。李宇琦等[22]提出商品网络表示学习模型PGE,利用商品节点的邻边作为当前商品节点的上下文信息,通过统计商品节点共享相邻节点的数量比较商品间的相似性,可以针对特定用户更有效地进行商品推荐。张金柱等[23]在科研合作网络中,通过LINE网络表示学习方法得到稠密低纬度的作者向量表示,显著提高了海量数据背景下科研合作预测的效率。刘姝雯等[24]提出一种基于层次多项逻辑回归的CBOW算法,将用户表示为低维稠密的向量,用以识别微博水军。樊玮等[25]构建包含论文、作者和期刊的异构网络表示学习的模型,将三种不同类型的节点表示到稠密低维的向量空间中,能够充分利用网络的局部结构信息,实现对论文未来影响力的预测。孙晓玲等[26]提出将深度表示学习引入知识计量领域,对知识进行关键词表示学习、文献表示学习和其他以知识单元为基础的知识表示学习,显著提高了知识发现、融合以及推理的效率。廖祥文等[27]提出一种局部特性建模的网络表示算法,将知识图谱中的节点表示为低维向量,并引入基于统计机器学习的方法进行文本观点挖掘,有效提高了多种检索模型的观点检索性能。刘思等[28]提出一种基于深度学习的网络表示学习算法,学习网络节点的潜在结构特征,将网络中的各节点表示到低维的向量空间中,最终通过在链路预测任务上的实验验证了算法的有效性。

值得说明的是,当前组合式表示学习尚未系统地应用于知识网络的表示研究。鉴于此,本文尝试构建组合式知识网络表示学习模型,采用网络嵌入融合和网络表示学习算法融合两种模型融合方式,增强网络表示学习算法对知识对象语义关系的表达能力。同时,以中文文本构建中文共词网络,验证CKNRL模型在共词网络中的可行性和有效性。

3 研究问题与研究方法

3.1 研究问题及相关定义

所谓知识网络表示学习[29],是指在给定单个语言(或单个领域、单个模态)下的知识网络NetworkA(简记为A),将知识网络中每个节点映射为低维向量的过程。具体而言,假定 Nodes={n1,n2...nn}为知识网络中的节点集合,知识网络的深度表示即是将知识网络中的节点映射到d维向量,其中需要学习的参数 wRNodes×d。本文以“知识网络表示模型”为中心议题,为使研究问题更为聚焦,将领域知识表示限定在单语言情境下,通过预测知识网络中节点的相关关系(以共现关系为例)检验不同知识网络表示学习算法以及融合算法的有效性。采用单语言表示学习算法将单语言情境下的知识网络A表征到低维空间中,利用网络表征构造合适特征,最后通过机器学习方法计算同构知识节点之间的相似度。

为表述方便,本文的相关符号定义如表1所示。

表1   相关符号说明

Table 1  Description of Related Symbols

符号表示说明
diDeepWalk算法获得的针对网络中第i个节点的表征
niNode2Vec算法获得的针对网络中第i个节点的表征
siSDNE算法获得的针对网络中第i个节点的表征
DjDeepWalk算法针对第j个节点对的分类结果(概率)
NjNode2Vec算法针对第j个节点对的分类结果(概率)
SjSDNE算法针对第j个节点对的分类结果(概率)

新窗口打开| 下载CSV


3.2 模型描述

单语言知识网络深度表示研究部分主要提出组合式知识网络表示学习模型(CKNRL),该模型完成单语言情境下的链接预测任务,以发现单语言知识网络中的潜在相似节点。CKNRL将DeepWalk、Node2Vec和SDNE三种算法得到的网络嵌入通过加权的方式分别进行网络嵌入融合和网络表示学习算法分类结果融合,以增强网络表示学习算法对知识对象语义关系的表达能力。本文主要探索CKNRL模型在单语言链接预测问题上的有效性,并通过系列基础实验,探索CKNRL模型在不同网络嵌入维度大小、不同滑动窗口大小、不同特征构造方法、不同模型融合方式以及不同机器学习算法等5个方面的工作效果,以找出最佳的超参数组合,最大程度提升单语言情境下的知识网络链接预测效果。具体流程如图1所示。

图1

图1   CKNRL模型流程

Fig.1   Process of the CKNRL Model


(1) 基础模型

DeepWalk[1]:在网络上采样生成大量的随机游走序列,然后用Skip-gram和Hierarchical Softmax模型对随机游走序列中每个局部窗口内的节点进行概率建模,最大化随机游走序列的似然概率,并采用随机梯度下降和反向传播算法优化节点表示向量,最后训练生成每个节点最优的向量表示。

Node2Vec[3]:通过改变随机游走序列生成的方式进一步扩展DeepWalk算法。DeepWalk选取随机游走序列中下一个节点的方式是均匀随机分布的,而Node2Vec通过引入两个参数p和q,将广度优先搜索和深度优先搜索引入随机游走序列的生成过程。广度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示,广度优先中的节点一般会出现很多次,从而降低刻画中心节点的邻居节点的方差;深度优先搜索反映了更高层面上的节点间的同质性。

SDNE[4]:使用深层神经网络对节点表示间的非线性进行建模。整个模型可以被分为两个部分:一个是由有监督的Laplace矩阵对第一级相似度关系进行建模的模块,另一个是由无监督的深层自编码器对第二级相似度关系进行建模,最终SDNE算法将深层自编码器的中间层作为节点的网络表示。相较而言,DeepWalk和Node2Vec使用的都是浅层神经网络,在刻画网络结构上有先天的局限,而SDNE使用多层自编码器,因此在具体任务上有更好的表现。

(2) 知识网络模块

网络表示学习算法的输入对象为二维网络数据(用邻接矩阵表示),当前拥有的数据为一维文档数据,需要将一维文档数据转换为二维网络数据,通过文档转化得到的网络被称为知识网络。

网络由节点和边两个模块构成。在知识网络中,节点对应的是“词”,边对应的是“给定窗口内词和词之间的共现关系”。具体地,假定在一个窗口大小内(假设为3,中文为分词后的3个词,英文为3个单词),所有词之间相互联系,在知识网络中则体现为窗口内的词对应的节点之间均有边相连。

构建知识网络具体包括三部分,具体描述如下:

①分词:原始的中文文档和英文文档以句子形式存在,而知识网络中每个节点对应一个词汇,需要将句子切分为词才能与知识网络中的节点一一对应。

②确定窗口大小:在知识网络中,需要确定哪些词之间相互关联,本文假定一个窗口大小下的所有词之间相互关联。

③构建词典和索引:构建词典V,对其中的每个词建立索引;遍历原始文档,将一个窗口内的每个词和剩下的词之间建立链接关系L;通过词典V将“文字链接关系L”转化为“索引链接关系”,从而得到由一一配对的词对应索引组成的邻接矩阵。

(3) 算法融合模块

在获取邻接矩阵之后,将邻接矩阵作为表示学习算法的输入部分,输出知识网络中每个节点对应的向量表示。由于网络表示学习算法不同,每种算法各有优劣,单纯依靠某算法完成链接预测任务存在一定缺陷。本文尝试将几种网络表示学习算法得到的网络嵌入进行融合,并探讨最佳的融合方式,以融合后的网络嵌入完成链接预测任务。网络表示学习算法的融合分为两种形式:网络嵌入融合和网络表示学习算法分类结果融合。

就网络嵌入融合而言,以DeepWalk、Node2Vec和SDNE三种算法作为CKNRL的基础组成模块。假定针对第i个节点,以上三种算法获得的网络嵌入分别是 dinisi,融合后的节点i对应的向量表示为 mi,所有节点对应的向量表示为M,则网络嵌入融合中的特征组合方法表示如公式(1)和公式(2)所示。

mi=α×di+β×ni+γ×si
α+β+γ=1

将组合后的节点嵌入M作为特征,运用机器学习方法完成单语言知识网络链接预测任务。相对于人工寻找词的特征,通过表示学习方法获得节点向量的方式在一定程度上减少了人力成本;此外,表示学习算法利用了网络的结构信息,因此通过表示学习算法得到的节点向量具有表示网络结构的能力。

就网络表示学习算法分类结果融合而言,同样以DeepWalk、Node2Vec和SDNE三种算法作为CKNRL的基础组成模块。假定针对第j个节点(样本),DeepWak算法获得网络嵌入后,通过机器学习算法完成链接预测,得到链接预测结果 Dj。类似于DeepWalk算法通过网络嵌入得到链接预测实验结果,Node2Vec算法和SDNE算法得到的链接预测结果分别为 NjSj,融合后的实验结果为 Rj,则网络表示学习算法分类结果融合的方法如公式(3)和公式(4)所示。

Rj=λ×Dj+μ×Nj+η×Sj
λ+μ+η=1

从作用层次角度看,网络嵌入融合方法作用于特征层次,而网络表示学习算法分类结果融合方法则作用于表示学习算法层次,通过在不同层次的融合提高算法对知识对象语义关系的表达能力。

4 实验结果与讨论

4.1 数据集

本次实验数据集来自新闻领域的中文数据集[30]。首先对数据集进行预处理,包含数据清洗和知识网络构建两个部分。数据清洗主要是对中文语料中标点符号、空格、停用词等进行删除。知识网络的构建分为三步:

(1)使用中文分词工具Jieba[31]对数据清洗后的中文语料进行分词;

(2)确定窗口大小为3;

(3)构建词典及每个词的索引,根据固定窗口下词和词之间的共现关系,建立对应索引组成的邻接矩阵。

原始中文文本语料经过预处理之后,得到中文知识节点5 480个,其中各个词性的中文知识节点情况如表2所示。

表2   单语言知识网络统计数据

Table 2  Statistics of the Single Language Knowledge Network

网络信息中文网络
名词性节点3 132
动词性节点1 956
形容词性节点342
其他知识节点50
边数110 301

新窗口打开| 下载CSV


4.2 参数设置

网络表示学习任务中,将探究网络嵌入维度大小、滑动窗口大小、特征构造方法、模型融合方式以及机器学习算法等5个因素对链接预测的影响,相关操作的参数如表3所示,各算法相关参数如表4所示。

表3   深度表示学习实验相关情况说明

Table 3  Description of Deep Representation Learning Experiments

相关操作详细说明
表示学习算法种类DeepWalk、Node2Vec、SDNE
完成任务链接预测
数据不平衡比例正例:负例=1:3
选取变量网络嵌入维度大小
滑动窗口大小
特征构造方法
模型融合方式
机器学习算法
训练集和测试比例8:2
评估指标Precision、Recall、F1、Accuracy、AUC
机器学习算法XGBoost、LightGBM、NB、LR、MLP、RF

新窗口打开| 下载CSV


表4   各表示学习算法参数

Table 4  Parameters of Each Representation Learning Algorithm

算法参数名参数值
DeepWalk迭代次数80
随机游走长度40
嵌入维度50、100、150、200
Node2Vec迭代次数100
随机游走长度80
嵌入维度50、100、150、200
p1
q0.5
SDNE迭代次数300
学习率0.01
批处理样本数64
嵌入维度50、100、150、200
Alpha100
Gamma1
Beta10
XGBoostThread5
scale_pos_weight3

新窗口打开| 下载CSV


4.3 评价指标

评价指标主要有5种,分别是Precision(准确率)、Recall(召回率)、F1值、Accuracy(精确率)和AUC值。

4.4 基线方法

为验证CKNRL模型的效果,从以下两个方面对CKNRL模型和基线方法进行比较:

(1)在系列基础实验方面,分别以网络嵌入维度大小、滑动窗口大小、特征构造方法、模型融合方式以及机器学习算法5种因素为变量,探究5种因素对于链接预测效果的影响,以得到CKNRL模型的最优参数。

(2)在知识网络表示学习方面,以DeepWalk、Node2Vec和SDNE三种算法为基线方法,与CKNRL模型进行对比,以判断其在完成单一网络链接预测任务上的有效性。

4.5 实验结果

(1) 嵌入维度对网络表示学习效果的影响

为探究不同网络嵌入维度对链接预测效果的影响,需要完成不同维度下的链接预测实验。以网络嵌入维度大小为变量,分别取50、100、150、200等4种维度,其他超参数固定,其中滑动窗口大小为5,根据实验(4)的结果选择最优参数作为 αβγ的值(分别为0.1、0.9、0),特征构造方法采用“向量相减并取绝对值”的方式,对 αβγ进行遍历,机器学习方法采用XGBoost。具体实验结果如表5所示。

表5   不同嵌入维度完成链接预测任务的实验结果

Table 5  Experimental Results of Link Prediction Tasks with Different Embedding Dimensions

维度大小PrecisionRecallF1AccuracyAUC
500.740.690.720.8640.912
1000.790.690.740.8760.917
1500.780.690.730.8730.915
2000.750.720.730.8700.912

新窗口打开| 下载CSV


表5的实验结果看,当CKNRL模型的网络嵌入维度为100维时,链接预测效果最好(AUC值为0.917),而在50维和200维下的链接预测效果最差(AUC值为0.912)。实验结果表明维度大小与链接预测效果并非呈正比关系,而是存在一个最合适的嵌入维度(本实验中最合适的嵌入维度为100)。

(2) 滑动窗口大小对网络表示学习效果的影响

为探究不同滑动窗口大小对链接预测的影响,需完成不同窗口大小下的链接预测实验。此处以滑动窗口大小为变量(分别为3、5、7、9),固定其他变量,网络嵌入维度为100,根据实验(4)的结果选择最优参数作为 αβγ的值(分别为0.1、0.9、0),特征构造方法采用“向量相减并取绝对值”的方式,对 αβγ进行遍历,机器学习方法采用XGBoost。具体实验结果如表6所示。

表6   不同窗口大小完成链接预测任务的实验结果

Table 6  Experimental Results of Link Prediction Tasks with Different Window Sizes

窗口大小PrecisionRecallF1AccuracyAUC
30.800.530.630.8480.869
50.790.690.740.8760.917
70.750.730.740.8710.921
90.740.770.750.8750.928

新窗口打开| 下载CSV


表6可知,滑动窗口大小与链接预测效果成正比。从信息量角度来看,滑动窗口越大,知识网络的边会越丰富,网络所包含的信息也会越丰富,因此网络表示学习的效果越好。从算法的角度来看,当滑动窗口变大时,输入数据量也越大,深度学习算法的效果越好,网络数据量同时也在增大,因此网络表示学习算法能够获得更好的网络表示效果。

(3) 特征构造方法对网络表示学习效果的影响

为探究不同特征构造方法对链接预测的影响,需完成不同特征构造方法下的链接预测实验。此处以特征构造方法为变量,其中,构造方法有5种,分别是“拼接”、“点乘”、“相减并取绝对值”、“相加取平均”和“相减取平方”,其他变量固定,网络嵌入维度为100,滑动窗口大小为9,根据实验(4)的结果选择最优参数作为 αβγ的值(分别为0.1、0.9、0),机器学习方法为XGBoost。具体实验结果如表7所示。

表7   不同特征构造方法对链接预测的影响

Table 7  Impact of Different Feature Construction Methods on Link Prediction

特征构造方法PrecisionRecallF1AccuracyAUC
拼接0.630.780.690.8280.891
点乘0.690.780.740.8590.919
相减取绝对值0.740.760.750.8720.927
相加取平均0.540.730.620.7750.828
相减取平方0.730.770.750.8720.927

新窗口打开| 下载CSV


表7的实验结果看,“相减取绝对值”和“相减取平方”的特征构造方法在各个评价指标上表现较好,其他的特征构造方法(如拼接、点乘和平均)与上述两种方法相比,仍然有一定差距。从物理意义上看,“向量相减”的系列方法表征的是空间中两点的距离,具有实际的物理意义,且构造的特征属于强特征类型。此外,“点乘”和“平均”这两种特征构造方法则没有较为清晰的物理意义,“拼接”方法虽是通过增大特征的个数来提高链接预测准确率,但构造的特征与“向量相减”系列方式相比依旧较弱,这导致“拼接”方法虽能完成预测,但其AUC值低于“向量相减”系列方法。

(4) 模型融合方式对于链接预测的影响

就网络嵌入融合而言,由于CKNRL模型由三种表示算法构成,有必要探索最佳的超参数 αβγ,以达到最佳的网络预测效果。三个超参数的取值范围在0-1之间,以0.1为间隔,保证三种参数之和为1。实验中,保证其他变量不变,滑动窗口大小为9,网络嵌入维度为100,特征构造方法采用“向量相减并取绝对值”的方式,机器学习方法采用XGBoost,对 αβγ进行遍历。部分实验结果如表8所示。

表8   不同模型融合方式完成链接预测任务的部分实验结果(网络嵌入融合)

Table 8  Partial Experimental Results of Link Prediction Tasks with Different Model Fusion Methods (Network Embedding Fusion)

αβγPrecisionRecallF1AUC
0.00.01.00.650.770.710.899
0.00.30.70.670.740.700.896
0.00.60.40.590.710.640.861
0.00.90.10.730.760.750.925
0.10.00.90.670.770.720.906
0.10.30.60.670.740.700.893
0.10.60.30.640.730.680.885
0.10.90.00.740.770.750.929
0.20.00.80.670.770.720.905
0.20.30.50.650.730.690.880
0.20.60.20.690.750.720.908
0.30.00.70.680.760.720.901
0.30.30.40.600.700.650.857
0.30.60.10.710.770.740.917
0.40.10.50.660.730.690.884
0.40.40.20.660.750.700.897
0.50.00.50.640.720.680.877
0.50.30.20.640.750.690.896
0.60.00.40.600.720.660.862
0.60.30.10.700.780.730.917
0.70.10.20.690.770.730.911
0.80.00.20.700.770.730.915
0.90.00.10.710.790.750.922
1.00.00.00.720.780.750.925

新窗口打开| 下载CSV


α取0.1、 β取0.9、 γ取0时,CKNRL模型在中文知识网络上的效果最好,对应的AUC值为0.929。从最佳超参数的组合中可以得出,在中文网络上,三种算法的最佳组合是排除SDNE算法的网络嵌入,着重依靠Node2Vec算法获得网络嵌入,由此推测SDNE算法在中文网络嵌入上的工作效果较差,从而拉低CKNRL模型整体的表示效果。此外,Node2Vec权重高于DeepWalk的原因可从算法内部原理角度进行分析。Node2Vec是在DeepWalk基础上的改进,通过添加两个不同参数pq,使得Node2Vec在采样阶段的效果优于DeepWalk。以上原因使得最佳的算法组合结果为Node2Vec权重最高,DeepWalk次之,SDNE权重最低。

就网络表示学习算法分类结果融合而言,其变量是DeepWalk、Node2Vec和SDNE三种算法分类结果对应的权重( λμη),通过不同权重取值,得到最佳的权重组合。三个超参数的取值范围在0-1之间,以0.1为间隔,保证三种参数之和为1。实验中,保证其他变量不变,滑动窗口大小为9,网络嵌入维度为100,特征构造方法采用“向量相减并取绝对值”的方式,机器学习方法采用XGBoost,对 λμη进行遍历。部分实验结果如表9所示。

表9   不同模型融合方式完成链接预测任务的部分实验结果(分类结果融合)

Table 9  Partial Experimental Results of Link Prediction Tasks with Different Model Fusion Methods (Classification Result Fusion)

λμηPrecisionRecallF1AUC
0.00.01.00.500.900.640.898
0.00.50.50.540.930.680.925
0.01.00.00.550.930.690.928
0.10.00.90.510.910.650.905
0.10.50.40.550.930.690.929
0.20.00.80.520.910.660.911
0.20.50.30.560.940.700.932
0.30.00.70.530.910.670.916
0.30.50.20.570.940.710.934
0.30.60.10.570.940.710.935
0.40.00.60.530.910.670.920
0.40.50.10.580.940.720.935
0.50.00.50.540.920.680.922
0.50.50.00.580.940.720.934
0.60.00.40.550.920.690.924
0.70.00.30.560.920.700.926
0.70.10.20.570.930.700.928
0.80.00.20.570.920.700.926
0.90.00.10.570.920.700.925
1.00.00.00.570.920.700.924

新窗口打开| 下载CSV


λ取0.3、 μ取0.6、 η取0.1(或 λ取0.4、 μ取0.5、 η取0.1)时,CKNRL模型在中文知识网络的效果最好,对应的AUC值均为0.935。从最佳超参数的组合中可以分析得出,在中文网络上,三种算法的最佳组合是Node2Vec和DeepWalk算法权重较高,而SDNE算法重要性占比较低。这表明SDNE算法在中文链接预测任务上的工作效果相较于其他两种算法差,降低SDNE算法权重比例的融合模型效果更好。

(5) 机器学习算法对于链接预测的影响

为探究不同机器学习算法对链接预测的影响,需完成不同机器学习算法下的链接预测实验。此处选择9种不同的机器学习算法,分别是朴素贝叶斯(Naive Bayes, NB)、Logistic回归(Logistic Regression,LR)、XGBoost、LightGBM、多层感知机(Multi-Layer Perceptron,MLP)、随机森林(Random Forest,RF)、Bagging、Voting和Bagging and Voting(BVC)。其中Bagging方法与随机森林类似,都是集成学习方法,其不同点在于基分类器不同。具体来说,随机森林的基分类器为决策树(Decision Tree),而Bagging方法的基分类器可以是任何一种机器学习算法,此处选取LR作为Bagging的基分类器。Voting算法本质上是集成学习算法中的Bagging算法,与RF的不同在于Voting中的基分类器各不相同,此处选取LR、NB和XGBoost作为基分类器。BVC算法是先用Bagging方法构建集成学习分类器,然后用Voting方法在集成分类器的基础上构建集成学习分类器。其他变量固定,网络嵌入维度为100,滑动窗口大小为9, αβγ取值分别为0.1、0.9、0, λμ、η取值分别为0.3、0.6、0.1,特征构造方法采用“向量相减并取绝对值”的方式,对 αβγ进行遍历。模型融合方法为网络嵌入融合时,机器学习算法对于链接预测的影响如表10所示。

表10   机器学习算法对于链接预测的影响(网络嵌入融合)

Table 10  Impact of Machine Learning Algorithms on Link Prediction (Network Embedding Fusion)

AlgorithmPrecisionRecallF1AUC
NB0.740.760.750.929
LR0.750.750.750.928
XGBoost0.690.820.750.927
LightGBM0.750.750.750.925
MLP0.750.730.740.914
RF0.660.770.710.903
Bagging0.660.730.690.893
BVC0.670.750.710.903
Voting0.780.740.760.924

新窗口打开| 下载CSV


表10可知,网络嵌入融合方法对应的最佳机器学习算法为NB,其AUC值为0.929,高于其他机器学习方法。从原理上看,本实验采用的NB算法中假定先验分布为高斯分布,当原始数据分布与高斯分布接近时,此算法可产生较好结果。相对于其他算法而言,NB算法比较简单,不会出现过拟合现象。

模型融合方法为网络表示学习算法分类结果融合时,机器学习算法对于链接预测的影响如表11所示。

表11   机器学习算法对于链接预测的影响(分类结果融合)

Table 11  Impact of Machine Learning Algorithms on Link Prediction (Classification Result Fusion)

AlgorithmPrecisionRecallF1AUC
RF0.700.770.730.917
LR0.790.720.750.935
MLP0.790.690.740.918
XGBoost0.710.840.770.937
LightGBM0.780.740.760.936
NB0.780.760.770.920
Bagging0.720.750.730.920
Voting0.780.750.760.933
BVC0.720.780.750.924

新窗口打开| 下载CSV


表11可知,网络表示学习算法分类结果融合方法对应的最佳机器学习算法为XGBoost,获得最高的AUC值0.937,高于其他机器学习方法,但其Precision(0.71)和Recall(0.84)值差别过大。

表10表11的实验结果可知,集成学习方法(Bagging、Voting、BVC等)都未能取得最佳效果,其原因可归结为以上三种方法均属于Bagging算法,其本质是通过牺牲一部分的偏差来降低方差,因此稳定性和可靠性较好,但预测的准确性较差。集成学习方法若要提升性能,基分类器必须具备高准确率和分类结果不同两个条件,而本文集成学习方法无法满足“分类结果不同”的要求。

在实际应用中,可根据实际情况选择不同的融合方法。若考虑到整体性能,则网络嵌入融合方法较为适合;若追求高召回率,则网络表示学习算法分类结果融合方法较为适合。

(6) 对比实验结果

为探究融合后模型的效果,将CKNRL模型与基线方法DeepWalk、Node2Vec和SDNE三种表示学习算法进行比较。基于这两个原则进行参数选择:一方面为与基线方法参数设置保持一致;另一方面根据上述系列实验结果选择最优的参数。参数取值分别为:网络嵌入维度为100,滑动窗口大小为9,模型融合方式为“网络嵌入融合”, αβγ取值分别为0.1、0.9、0,特征构造方法采用“向量相减取绝对值”的方式,机器学习方法采用XGBoost。具体实验结果如表12所示。

表12   表示学习对比实验结果

Table 12  Represents Learning Comparison Experiment Results

方法PrecisionRecallF1AccuracyAUC
CKNRL0.740.770.750.8740.929
DeepWalk0.720.780.750.8680.925
Node2Vec0.730.770.750.8720.926
SDNE0.650.770.710.8400.899

新窗口打开| 下载CSV


CKNRL模型在Precision、AUC两个指标上均优于基线方法,在其他评估指标上相差不大。在最重要的指标(AUC)值上,CKNRL模型取得最高的AUC值(0.929),表明CKNRL模型能够取得相对于基线方法更好的结果。从CKNRL模型的本质上来看,CKNRL模型是一种组合表示学习算法,能够综合DeepWalk、Node2Vec和SDNE三种算法的优点,从而达到最好的链接预测结果。

4.6 讨 论

从数据的利用上看,本文通过构建新闻领域的中文知识网络,以完成中文网络节点链接预测任务。CKNRL模型设定网络嵌入维度大小、滑动窗口大小、特征构造方法、模型融合方式以及机器学习算法5种不同的超参数,目的是利用原始数据的内在信息,最大限度地表征单个词语义以及不同词汇之间的关系。通过设定不同的嵌入维度大小,寻找最合适的维度表征词汇语义;通过设定滑动窗口大小,保证窗口内部词汇呈现共现关系,完成原始文本数据到网络结构数据的转变;通过设定不同的特征构造方法,利用空间中两点的位置表征两个词汇之间的联系;通过设定不同的模型融合方式和不同的机器学习算法,探究网络嵌入融合和算法结果融合两种方式对链接预测结果的影响。

从模型的内在原理上看,由于每种表示学习算法都有各自适用的领域,将其迁移到其他领域时,单个表示学习算法的效果可能会下降,而组合式表示学习算法能够解决这一问题。类似于集成学习算法将多个弱分类器线性融合为一个强分类器的形式,组合式表示算法通过给每种表示学习算法得到的网络嵌入赋予不同的权重,以不均等的方式进行资源分配,达到不同领域以不同的融合方式进行预测的目的,从而使算法能够适应更广泛的领域。CKNRL模型是由多种表示学习算法融合的结果(隶属于组合式算法),在一定程度上,该模型能够更好地表示知识对象的语义关系,具有更广泛的适用性。

从模型的应用上看,CKNRL模型实质上是一种分析单个网络中知识节点间相关关系的框架。本文的研究对象是自然语言,网络节点中每个节点对应一个词汇,通过链接预测发现知识节点之间的近邻关系。推广来看,如果面对的领域为社交网络,则链接预测对应好友发现;如果面对的领域为科研合作网络,则链接预测对应合作推荐;如果面对的领域为引文网络,则链接预测对应引文推荐;如果面对的领域为交通网络,则链接预测为地域聚类。由此可知,CKNRL模型不仅可以用于自然语言处理领域,还可以推广到其他领域,具备潜在的商用价值。

5 结 语

本文从网络视角出发,对领域知识表示中的网络表示学习技术展开研究。回顾知识网络、表示学习等相关理论和方法;在单语言情境下提出组合式知识网络表示学习模型(CKNRL),通过权重组合方法,增强网络表示学习算法对知识对象语义关系的表达能力;最后,以中文文本构建中文共词网络,验证CKNRL模型在共词网络中的可行性和有效性,相对于传统的网络表示学习模型具有更好的融合性能。

CKNRL模型在不同类型知识网络中,对增强网络表示算法的稳定性具有重要作用。单个网络表示学习算法可能适合某种类型的知识网络(如共词网络),而不适合另外一种类型的知识网络(如合著网络),而组合式网络表示学习模型CKNRL可综合多种表示学习算法的优势,通过权重组合的方式找出最优的网络表示学习算法,以达到增强算法适用性的效果,同时提高网络表示学习算法在链接预测任务上的准确度。

本文的不足之处在于实证研究建立在共词网络的基础上,未来将进一步检验CKNRL模型在更多类型知识网络中链接预测任务的效果。

作者贡献声明

余传明:提出研究思路,设计研究方案,构建模型;

李浩男:采集、清洗数据,进行实验,撰写论文初稿;

王曼怡:基线对比实验,论文修改;

黄婷婷:扩展实验,论文修改;

安璐:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: yuchuanming2003@126.com。

[1] 余传明.news-commentary-v11.en-zh.xliff.新闻平行语料原始数据集.

[2] 余传明.训练集与测试集数据.rar. 窗口为3、5、7、9的训练集与测试集数据.

[3] 余传明.附录.doc.不同特征组合方式完成链接预测任务的详细实验结果.

参考文献

Perozzi B, Al-Rfou R, Skiena S.

DeepWalk: Online Learning of Social Representations

[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM, 2014: 701-710.

[本文引用: 3]

Tang J, Qu M, Wang M, et al.

LINE: Large-scale Information Network Embedding

[C]// Proceedings of the 24th International Conference on World Wide Web. 2015: 1067-1077.

[本文引用: 2]

Grover A, Leskovec J.

Node2Vec: Scalable Feature Learning for Networks

[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 855-864.

[本文引用: 3]

Wang D, Cui P, Zhu W.

Structural Deep Network Embedding

[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM, 2016: 1225-1234.

[本文引用: 3]

郑彦宁, 许晓阳, 刘志辉 .

基于关键词共现的研究前沿识别方法研究

[J]. 图书情报工作, 2016,60(4):85-92.

[本文引用: 1]

( Zheng Yanning, Xu Xiaoyang, Liu Zhihui .

Study on the Method of Identifying Research Fronts Based on Keywords Co-occurrence

[J]. Library and Information Service, 2016,60(4):85-92.)

[本文引用: 1]

商宪丽, 王学东 .

图书情报知识

[J]. 图书情报知识,2016(3):80-88.

[本文引用: 1]

( Shang Xianli, Wang Xuedong .

A Feature Selection Method Based on Dynamic Co-Word Network for Microblog Topic Detection

[J]. Document, Information & Knowledge, 2016(3):80-88.)

[本文引用: 1]

孙耀吾, 龚晓叶 .

技术标准化主题学术关注度及共词网络演化研究

[J]. 情报杂志, 2017,36(9):64-70,37.

[本文引用: 1]

( Sun Yaowu, Gong Xiaoye .

The Academic Interest of Technological Standardization Topic and Its Co-Word Network Evolution Research

[J]. Journal of Intelligence, 2017,36(9):64-70, 37.)

[本文引用: 1]

马红, 蔡永明 .

共词网络LDA模型的中文文本主题分析:以交通法学文献( 2000 -2016)为例

[J]. 现代图书情报技术, 2016(12):17-26.

[本文引用: 1]

( Ma Hong, Cai Yongming .

A CA-LDA Model for Chinese Topic Analysis: Case Study of Transportation Law Literature

[J]. New Technology of Library and Information Service, 2016(12):17-26.)

[本文引用: 1]

蔡永明, 长青 .

共词网络LDA模型的中文短文本主题分析

[J]. 情报学报, 2018,37(3):305-317.

[本文引用: 1]

( Cai Yongming, Chang Qing .

Chinese Short Text Topic Analysis by Latent Dirichlet Allocation Model with Co-Word Network Analysis

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(3):305-317.)

[本文引用: 1]

宫雪, 崔雷 .

基于医学主题词共现网络的链接预测研究

[J]. 情报杂志, 2018,37(1):66-71,52.

[本文引用: 1]

( Gong Xue, Cui Lei .

Link Prediction in MeSH Terms Co-occurring Networks

[J]. Journal of Intelligence, 2018,37(1):66-71,52.)

[本文引用: 1]

高继平, 丁堃, 潘云涛 , .

共词网络中连线的重要性分析及其应用

[J]. 情报理论与实践, 2015,38(2):79-83,70.

[本文引用: 1]

( Gao Jiping, Ding Kun, Pan Yuntao , et al.

Importance Analysis and Application of Connections in Co-Word Networks

[J]. Information Studies: Theory & Application, 2015,38(2):79-83,70.)

[本文引用: 1]

李纲, 任佳佳, 毛进 , .

专利权人合作网络的社群结构分析——以燃料电池电动汽车专利为例

[J]. 情报学报, 2014,33(3):267-276.

[本文引用: 1]

( Li Gang, Ren Jiajia, Mao Jin , et al.

Analysis of the Community Structure of Patentees’ Collaboration Network——Fuel Cell Electric Vehicle Patents as an Example

[J]. Journal of the China Society for Scientific and Technical Information, 2014,33(3):267-276.)

[本文引用: 1]

吕鹏辉, 刘盛博 .

学科知识网络实证研究(Ⅳ)合作网络的结构与特征分析

[J]. 情报学报, 2014,33(4):367-374.

[本文引用: 1]

( Lv Penghui, Liu Shengbo .

Scientific Knowledge Networks in LIS(IV): Investigation on the Structure and Characteristics of Cooperation Networks

[J]. Journal of the China Society for Scientific and Technical Information, 2014,33(4):367-374.)

[本文引用: 1]

陈伟, 李传云, 周文 , .

基于新能源汽车的加权专利合作网络研究

[J]. 情报学报, 2016,35(6):563-572.

[本文引用: 1]

( Chen Wei, Li Chuanyun, Zhou Wen , et al.

Research on the Weighted Patent Cooperation Network Based on New Energy Vehicles

[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(6):563-572.)

[本文引用: 1]

范如霞, 曾建勋, 高亚瑞玺 .

基于合作网络的学者动态学术影响力模式识别研究

[J]. 数据分析与知识发现, 2017,1(4):30-37.

[本文引用: 1]

( Fan Ruxia, Zeng Jianxun, Gao Yaruixi .

Recognizing Dynamic Academic Impacts of Scholars Based on Cooperative Network

[J]. Data Analysis and Knowledge Discovery, 2017,1(4):30-37.)

[本文引用: 1]

施晓华, 卢宏涛 .

基于矩阵分解学习的科学合作网络社区发现研究

[J]. 数据分析与知识发现, 2017,1(9):49-56.

[本文引用: 1]

( Shi Xiaohua, Lu Hongtao .

Detecting Community in Scientific Collaboration Network with Bayesian Symmetric NMF

[J]. Data Analysis and Knowledge Discovery, 2017,1(9):49-56.)

[本文引用: 1]

吕鹏辉, 张士靖 .

学科知识网络研究(Ⅰ)引文网络的结构、特征与演化

[J]. 情报学报, 2014,33(4):340-348.

[本文引用: 1]

( Lv Penghui, Zhang Shijing .

Scientific Knowledge Networks in LIS(I): Case Study on the Structure, Characteristics and Evolution of Citation Networks

[J]. Journal of the China Society for Scientific and Technical Information, 2014,33(4):340-348.)

[本文引用: 1]

隗玲, 刘春江, 许海云 , .

基于文献关联属性的引文网络主路径识别——以合成生物学领域为例

[J]. 情报学报, 2018,37(4):351-361.

[本文引用: 1]

( Wei Ling, Liu Chunjiang, Xu Haiyun , et al.

Citation Network Main Path Identification Based on Associated Attributes of Articles: Case Study from Synthetic Biology

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(4):351-361.)

[本文引用: 1]

王忠义, 张鹤铭, 黄京 , .

基于社会网络分析的网络问答社区知识传播研究

[J]. 数据分析与知识发现, 2018,2(11):80-94.

[本文引用: 1]

( Wang Zhongyi, Zhang Heming, Huang Jing , et al.

Studying Knowledge Dissemination of Online Q&A Community with Social Network Analysis

[J]. Data Analysis and Knowledge Discovery, 2018,2(11):80-94.)

[本文引用: 1]

范馨月, 崔雷 .

基于网络属性的抗肿瘤药物靶点预测方法及其应用

[J]. 数据分析与知识发现, 2018,2(12):98-108.

[本文引用: 1]

( Fan Xinyue, Cui Lei .

Predicting Antineoplastic Drug Targets Based on Network Properties

[J]. Data Analysis and Knowledge Discovery, 2018,2(12):98-108.)

[本文引用: 1]

余传明, 冯博琳, 安璐 .

基于深度表示学习的跨领域情感分析

[J]. 数据分析与知识发现, 2017,1(7):73-81.

[本文引用: 1]

( Yu Chuanming, Feng Bolin, An Lu .

Sentiment Analysis in Cross-Domain Environment with Deep Representative Learning

[J]. Data Analysis and Knowledge Discovery, 2017,1(7):73-81.)

[本文引用: 1]

李宇琦, 陈维政, 闫宏飞 , .

基于网络表示学习的个性化商品推荐

[J]. 计算机学报, 2019,42(8):1767-1778.

[本文引用: 1]

( Li Yuqi, Chen Weizheng, Yan Hongfei , et al.

Learning Graph-based Embedding for Personalized Product Recommendation

[J]. Chinese Journal of Computers, 2019,42(8):1767-1778.)

[本文引用: 1]

张金柱, 于文倩, 刘菁婕 , .

基于网络表示学习的科研合作预测研究

[J]. 情报学报, 2018,37(2):132-139.

[本文引用: 1]

( Zhang Jinzhu, Yu Wenqian, Liu Jingjie , et al.

Predicting Research Collaborations Based on Network Embedding

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(2):132-139.)

[本文引用: 1]

刘姝雯, 徐扬, 王冰璐 , .

基于用户表示学习的微博水军识别研究

[J]. 情报杂志, 2018,37(7):95-100,87.

[本文引用: 1]

( Liu Shuwen, Xu Yang, Wang Binglu , et al.

Water Army Detection of Weibo Using User Representation Learning

[J]. Journal of Intelligence, 2018,37(7):95-100,87.)

[本文引用: 1]

樊玮, 韩佳宁, 张宇翔 .

基于网络表示学习的论文影响力预测算法

[J/OL]. 计算机工程. .

URL     [本文引用: 1]

( Fan Wei, Han Jianing, Zhang Yuxiang .

Paper Influence Prediction Algorithm Based on Network Representation Learning

[J/OL]. Computer Engineering. .)

URL     [本文引用: 1]

孙晓玲, 丁堃 .

深度学习中的表示学习研究及其对知识计量的影响

[J]. 情报理论与实践, 2018,41(9):118-122.

[本文引用: 1]

( Sun Xiaoling, Ding Kun .

Study of Representation Learning in Deep Learning and Its Impact on Knowledge Measurement

[J]. Information Studies: Theory & Application, 2018,41(9):118-122.)

[本文引用: 1]

廖祥文, 刘德元, 桂林 , .

融合文本概念化与网络表示的观点检索

[J]. 软件学报, 2018,29(10):2899-2914.

[本文引用: 1]

( Liao Xiangwen, Liu Deyuan, Gui Lin , et al.

Opinion Retrieval Method Combining Text Conceptualization and Network Embedding

[J]. Journal of Software, 2018,29(10):2899-2914.)

[本文引用: 1]

刘思, 刘海, 陈启买 , .

基于网络表示学习与随机游走的链路预测算法

[J]. 计算机应用, 2017,37(8):2234-2239.

[本文引用: 1]

( Liu Si, Liu Hai, Chen Qimai , et al.

Link Prediction Algorithm Based on Network Representation Learning and Random Walk

[J]. Journal of Computer Applications, 2017,37(8):2234-2239.)

[本文引用: 1]

刘知远, 孙茂松, 林衍凯 , .

知识表示学习研究进展

[J]. 计算机研究与发展, 2016,53(2):247-261.

[本文引用: 1]

( Liu Zhiyuan, Sun Maosong, Lin Yankai , et al.

Knowledge Representation Learning: A Review

[J]. Journal of Computer Research and Development, 2016,53(2):247-261.)

[本文引用: 1]

新闻平行语料数据集

[EB/OL]. [ 2018- 01- 01]. .

URL     [本文引用: 1]

(

News-commentary Corpus

[EB/OL]. [ 2018- 01- 01]. )

URL     [本文引用: 1]

Jieba文档[EB/OL]. [2018-01-01]..

URL     [本文引用: 1]

( Jieba Document[EB/OL]. [2018-01-01]..)

URL     [本文引用: 1]

/