数据分析与知识发现

Select

隗玲,李姝影,方曙

数据分析与知识发现. 2020, 4(9): 1-14. https://doi.org/10.11925/infotech.2096-3467.2020.0625

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】系统梳理技术路线图方法及其应用研究现状,分析展望其未来研究与应用发展。【文献范围】构造检索式,在Web of Science核心数据库中检索并下载2004年-2020年文献285篇,通过筛选和补充获得代表性文献76篇。【方法】回顾技术路线图发展历程与概念内涵,由微观到宏观逐次介绍其研发方法与工具、制定与实施过程、应用现状与未来展望。【结果】技术路线图的研发方法与工具可分为三大类,其制定思路与实施指南明确,并在企业、网络、行业和国家层面应用广泛。【局限】经典文献和重要报告较多,近两年的文献数量较少。【结论】我国需加强技术路线图的理论基础研究,优化其制定流程,促进技术路线图在中小企业的研究与应用,加强技术路线图方法与应用专业人才的培养。

Select

命名实体消歧研究进展综述

温萍梅,叶志炜,丁文健,刘颖,徐健

数据分析与知识发现. 2020, 4(9): 15-25. https://doi.org/10.11925/infotech.2096-3467.2020.0382

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】调研近年来命名实体消歧领域的相关研究和资源,重点介绍命名实体消歧方法研究进展。【文献范围】使用知网数据库、万方数据知识服务平台和EBSCO外文期刊平台检索命名实体消歧相关文献,共选择57篇代表性文献和电子资源。【方法】从实体显著性、上下文相似度、实体关联度、深度学习和特殊标识资源5个角度对命名实体消歧的方法和思路进行归纳总结,并对可用的辅助知识库和开源工具以及国际评测会议进行梳理。【结果】传统的方法经典易用,而近年来出现的深度学习等新方法,则明显地提升了消歧效果。有效的消歧模型往往整合了不同类型方法,以期达到最优消歧效果。【局限】基于已有文献对各种方法的对比分析尚存在一定的主观性。【结论】现有的命名实体消歧方法仍然处在发展阶段,未来可利用人工智能方法和领域资源进一步提升实体消歧效果。

Select

基于多源数据的美国出口管制分析框架及其实证研究

李广建,王锴,张庆芝

数据分析与知识发现. 2020, 4(9): 26-40. https://doi.org/10.11925/infotech.2096-3467.2020.0645

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对目前对美国出口管制分析的不足,提出一种融合多源数据、深入文本语义内容的美国出口管制信息的多维分析框架,构建细粒度美国出口管制信息分析模式,为数据分析工作者提供参考。【方法】本文提出的框架基于多源数据融合思想,除了使用《出口管理条例》、《商业管制清单》,还使用实体清单等“黑名单”、与出口管制相关的联邦公报。识别多源数据中的技术名词、技术指标和受控物品关系;通过语义词典和语义模型构建语义索引;针对实体清单等“黑名单”数据,利用命名实体识别等方法构建个体与物品之间的关联关系;在此基础上,本框架包含管制现状分析、具体物品分析、时序分析、国家受控分析等4种分析模式。【结果】为验证框架的有效性,以光刻机为例,对框架及其实现进行实证研究,通过人工复核检验了框架实现方法的可行性和实用性,光刻机识别召回率在识别同尾号情况下为97.3%,中国大陆的个体领域识别准确率为83.8%。【局限】仅选取光刻机这一受控对象进行实证研究;框架实现方法还有进一步改进的空间。【结论】本文框架可以对美国出口管制做出全面、准确、有效、快速的分析,利用多源数据提供有关美国出口管制的细粒度知识,可为出口管制的文本情报分析工作提供借鉴。

Select

区域公共安全数据治理与业务领域本体研究

曾桢,李纲,毛进,陈璟浩

数据分析与知识发现. 2020, 4(9): 41-55. https://doi.org/10.11925/infotech.2096-3467.2020.0145

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】构建区域公共安全数据治理与业务本体模型,提升区域公共安全数据治理与业务应用结合水平。【方法】基于关联数据思想,复用DACT、ODRL2.2公开本体,将公共安全数据视为数据资产进行描述治理,并扩展EventKG本体描述公共安全业务逻辑,通过PROV本体描述数据资产到业务模型双向溯源关系,并基于概念（SKOS）、组织（ORG）本体构建数据治理与业务关联,最终完成反映数据治理到业务全过程本体构建。【结果】所构建本体基于6个公开与通用本体,具有较好的扩展性与可复用性,关系丰富度为0.773,大于0.500,表明本体具有较丰富类间关系,有助于描述公共安全数据治理与业务复杂关系,最后基于所构建本体在一个地级市构建知识图谱应用。【局限】需要进一步扩展到网络公共安全数据。【结论】所得到的模型与应用服务为我国区域公共安全领域数据治理、信息服务提供新视角与实践参考。

Select

基于图卷积嵌入与特征交叉的文献被引量预测方法：以交通运输领域为例

张思凡,牛振东,陆浩,朱一凡,王荣荣

数据分析与知识发现. 2020, 4(9): 56-67. https://doi.org/10.11925/infotech.2096-3467.2020.0531

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】提出一种文献被引量预测模型,用于发现潜在研究热点、优化改进刊物采编工作。【方法】综合考虑文献的关键词、作者、机构、国家、被引量等相关因素,利用图卷积进行特征提取,利用循环神经网络与注意力机制对被引量的时序信息与重要文献特征进行挖掘。【结果】利用Web of Science核心集中交通运输领域的文献对模型进行验证,与基准模型相比,在RMSE、MAE等各项指标上最大提升幅度达15.23%与16.91%。【局限】在所提模型的预训练步骤中,进行多次图卷积,使得算法的时间复杂度较高。【结论】本文所提模型将文献各项特征充分融合,极大提高了预测模型的性能。

Select

基于语义的突发公共卫生事件网络舆情主题发现研究

邵琦,牟冬梅,王萍,靳春妍

数据分析与知识发现. 2020, 4(9): 68-80. https://doi.org/10.11925/infotech.2096-3467.2020.0117

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】提出基于语义的突发公共卫生事件网络舆情主题发现框架,发挥语义识别在舆情主题发现中的优势。【方法】从语法、语义、语用三个角度,利用依存句法分析、语义角色标注构建RDF三元组,分析语义图谱中的度及PageRank值判断核心节点,展开舆情主题发现研究并进行实证。【结果】实证研究中依据理论框架能够构建舆情主题语义图谱,可视化展现舆情主题间的语义关系,发现核心节点并聚焦于当事主体与官方政府两大主题。【局限】语义识别深度还有待提升。【结论】研究构建的理论模型在指导舆情主题语义发现方面具有一定的可行性,在舆情的主题发现上有一定的优势。

Select

居民地变化的空间分布及社会经济驱动力分析——以浙江省为例

周衡,陈张建,李爱勤,成晓强,吴华意

数据分析与知识发现. 2020, 4(9): 81-90. https://doi.org/10.11925/infotech.2096-3467.2020.0156

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】准确把握测绘地理要素的变化特征及驱动机理,提高基础测绘效益。【方法】以浙江省居民地为例,综合运用GIS叠置分析、集聚分析和相关性分析方法,系统剖析居民地变化的社会经济驱动力。【结果】研究表明,居民地变化集中分布在浙江省的北部、中部和东南部;第二产业发展与居民地变化数目的相关系数为0.336,是居民地变化的主要驱动力;第三产业发展、政府公共投入与居民地变化数目的相关系数分别为-0.054和-0.100,对居民地变化有负驱动作用。【局限】制图综合等人为因素导致居民地存在“伪变化”,因此变化统计数据的精确性有待进一步提升。【结论】浙江省居民地变化呈现明显的区域差异,且不同经济指标对居民地变化驱动作用的程度、方向各异。

Select

扩充语义维度的BiGRU-AM突发事件要素识别研究

尹浩然,曹金璇,曹鲁喆,王国栋

数据分析与知识发现. 2020, 4(9): 91-99. https://doi.org/10.11925/infotech.2096-3467.2020.0022

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为了解决循环神经网络对于重要程度不同的信息特征可解释性差的问题,本文提出一种扩充语义维度的BiGRU-AM突发事件要素识别方法。【方法】首先将文本语料训练为词向量,并将生成的词向量联接词性、依存句法关系等语义特征;然后通过BiGRU模型提取上下文信息特征,将注意力机制引入BiGRU网络,使得特征的提取更有选择性;最后将学习到的特征经过Softmax函数激活,输出识别结果。【结果】利用扩充了语义维度的BiGRU-AM模型在CEC数据集中进行实验,仿真实验结果表明,本文方法相较于其他浅层机器学习算法,F值提升了2%~21%不等。【局限】在判断语义关系方面较为局限;语料预处理的过程中依赖分词工具的准确性;超参数只是单方面的依序确定,缺乏关联性;F值的提升使得预处理工作的开销增大。【结论】扩充语义维度的BiGRU-AM模型可以有效地处理突发事件要素识别任务。

Select

基于演化分析的动态城市画像研究

叶光辉,徐彤

数据分析与知识发现. 2020, 4(9): 100-110. https://doi.org/10.11925/infotech.2096-3467.2020.0104

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】基于公众对城市的认知数据,从更长时段揭示城市特征的迁移过程,感知城市画像演化规律。【方法】以旅游产业作为揭示城市画像的分面,采集社交媒介中大量游记文本,借鉴网络分析以及文本分析方法,探究城市画像演化路径与动力。【结果】就个体特征而言,景点旅游功能逐渐呈现出多级分化趋势;群体特征则表现为在旅游网络中社团结构愈发稳定与固化;此外,依据相关性研究得知,城市画像的动态演化与景点之间的地理距离为负相关关系,但其与景点主题之间为正相关关系,表明景点主题对城市画像动态演化影响更为显著。【局限】部分属性数据未得到充分利用,有待结合其他文本挖掘方法,以实现更进一步的城市数据分析与城市画像探索工作。【结论】本文研究有效揭示城市画像动态演进过程,为政府及行业相关举措的规划与实施提供参考。

Select

融合特定任务信息注意力机制的文本表示学习模型

黄露,周恩国,李岱峰

数据分析与知识发现. 2020, 4(9): 111-122. https://doi.org/10.11925/infotech.2096-3467.2020.0204

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过任务标签嵌入方法改进注意力机制,学习特定任务信息并产生与任务相关的注意力权重,提高文本向量的表示能力。【方法】通过多层LSTM提取文本潜在语义的向量表示;通过标签嵌入学习到不同标签下最关注的单词,获取特定任务下的背景语义信息,并产生注意力权重;计算得到融合特定任务信息的文本表示向量,并用于文本的分类预测。【结果】相比TextCNN、BiGRU、TLSTM、LSTMAtt以及SelfAtt模型,本文方法在情感、主题、主客观句、领域等多个数据集上的分类准确率提升0.60%~11.95%,总体平均提升5.27%,同时该模型具有收敛速度快、复杂度较低等优点。【局限】实验数据集规模和任务类型相对有限,可进一步扩充进行模型验证和优化。【结论】该模型具有面向任务、轻量级的特点,可有效提高文本语义的表达能力和分类效果,具有较强的实用价值。

Select

基于多特征融合的先秦典籍汉英句子对齐研究

梁继文,江川,王东波

数据分析与知识发现. 2020, 4(9): 123-132. https://doi.org/10.11925/infotech.2096-3467.2019.0268

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实现先秦典籍古文-英文双语句子自动对齐,为构建典籍双语句级平行语料库、跨语言检索提供支持。【方法】将典籍汉英句子自动对齐问题视为候选句对分类问题,根据实验语料特点,结合已有研究选取对齐句对特征,基于“整体分类”与“序列标注”两种不同的理念,识别候选句对中的对齐句对。【结果】在序列标注实验中,LSTM-CRF模型的句子对齐效果最佳F值为92.67%;在整体分类实验中,SVM识别效果最佳F值为90.63%;在特征组合实验中,同时使用4种特征的F值为91.01%,效果优于其他特征组合。【局限】有待补充类型更丰富的原始语料。【结论】融合4种特征的LSTM-CRF神经网络模型能够有效识别古文-英文对齐句对,实现典籍双语句子自动对齐。

Select

基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究

邬金鸣,侯跃芳,崔雷

数据分析与知识发现. 2020, 4(9): 133-144. https://doi.org/10.11925/infotech.2096-3467.2020.0192

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探索一种易于用户理解的规范化、自动化聚类结果判读和表达方式,促进主题词共现聚类的发展。【方法】以肿瘤诊断主题为例,参考标引教材梳理相关的主题词/副主题词标引规则,选取10组肿瘤为训练集进行高频主题词共现聚类分析,人工审读聚类结果,结合标引规则,梳理高频主题词语义类型/副主题词组合规则。基于规则编写Python程序,自动解读验证集中4组肿瘤的聚类结果,并请专家对其揭示类团内容的准确性、全面性、实用性、易理解性和简洁性进行评价。【结果】整理标引规则30条,梳理面向主题词共现聚类结果解读的语义类型/副主题词组合规则98条。验证集的5个评价指标（准确性、全面性、实用性、易理解性和简洁性）分值分别为4.282、4.435、4.209、4.457、4.206（满分5分）。【局限】探索语义类型/副主题词组合规则时,研究结果与每次聚类过程中高频阈值的选择、聚类结果数的确定均有关联。利用组合规则解读类团内容难以揭示类团“隐藏信息”。【结论】基于规则自动解读主题词共现聚类分析结果具有较强适用性,在一定程度上促进了主题词共现聚类分析结果表达的客观化与规范化。

选择文件类型/文献管理软件名称

选择包含的内容

2020年, 第4卷, 第9期　
刊出日期：2020-09-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2020年, 第4卷, 第9期 刊出日期：2020-09-25

2020年, 第4卷, 第9期　
刊出日期：2020-09-25