数据分析与知识发现

数据分析与知识发现

2022年, 第6卷, 第4期　刊出日期：2022-04-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

综述评介

Select

科技论文引用内容分析研究进展

王露, 乐小虬

数据分析与知识发现. 2022, 6 (4): 1-15. DOI: 10.11925/infotech.2096-3467.2021.1000

摘要

HTML ( 51 )

PDF(1084KB) ( 502 )

【目的】 梳理近年来引用内容分析研究进展,理清研究方向及技术发展趋势。【文献范围】 利用知网、Scopus、语义学者等搜索平台,以“引文全文本”、“引文上下文”、“引文内容”、“引用内容”、“citation content”等关键词进行检索,并进行人工筛选。【方法】 从相关概念辨析、主要研究方向、关键技术、分析工具和平台4个方面对引用内容分析相关研究进行归纳和对比分析,提出现存问题和未来研究方向。【结果】 引用内容分析在引用动机、引用评价、知识流向、论文推荐等研究方向出现一些新的研究思路和方法;在引用内容分析关键共性技术方面,引用句抽取、引用位置识别、引用情感分析、引用知识点识别等方面均取得进展。【局限】 主要从宏观层面归纳总结引用内容分析相关研究,未进行各个方面内容的深入阐述。【结论】 引用内容分析相对于引文分析具有独特的优势,随着自然语言处理技术的快速迭代,其发展前景广阔。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

学者研究兴趣识别综述^*

石湘, 刘萍

数据分析与知识发现. 2022, 6 (4): 16-27. DOI: 10.11925/infotech.2096-3467.2021.0774

摘要

HTML ( 30 )

PDF(834KB) ( 436 )

【目的】 对学者研究兴趣识别的意义、视角及其相关技术方法进行分析和总结,为后续研究提供参考和借鉴。【文献范围】 以“学者画像”、“研究兴趣”、“Scholar Profile”、“Research Interest”为检索词在中国知网、Web of Science、DBLP等学术平台检索文献,共筛选62遍具有代表性的文献进行综述。【方法】 从词汇、主题和网络三个方面对学者研究兴趣识别研究进行梳理,分析研究的发展进程,探讨未来的发展趋势。【结果】 在词汇、主题层次的研究较为成熟,能够有效地识别出学者研究兴趣及其演化特征;在网络层次的研究还处于初级阶段。【局限】 主要从全信息视角分析已有研究兴趣识别方法,未深入阐述研究兴趣识别算法的技术细节。【结论】 学者研究兴趣关联及其语义识别方面还有改进的空间,同时在学者研究兴趣的语义描述方面还有很大的发展潜力。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

融合半监督学习与主动学习的细分领域新闻分类研究^*

陈果, 叶潮

数据分析与知识发现. 2022, 6 (4): 28-38. DOI: 10.11925/infotech.2096-3467.2021.0545

摘要

HTML ( 53 )

PDF(953KB) ( 412 )

【目的】 在基于新闻文本挖掘的开源技术情报监测任务场景下,提出一种结合半监督学习与主动学习的细分领域新闻分类方案。【方法】 首先,在新闻文本表示学习的基础上开展K-Means聚类,筛选各类簇中少量代表性样本供人工判定类目,合并调整后作为细分领域类目;其次,利用代表性样本作为训练集,集成多种分类算法训练出初始分类器;最后,结合困惑度和混淆矩阵开展主动学习有针对性地迭代优化初始分类器。【结果】 在坦克装甲车领域新闻数据集上进行测试,进行主动学习后取得较好的文本分类结果,正确率、召回率和F1值达到83.68%、83.35%和83.17%,较主动学习前分别提升2.71、2.52和2.81个百分点。【局限】 为了减少人工语料标注任务,主动学习环节仅做了两次迭代。【结论】 所提方案能够在缺乏语料标注、未预设细分类目的原始状态下,仅利用少量人工参与成本,即可一体化地获得效果较好的细分领域新闻分类器。该方案在实践中具有较高的性价比和良好的领域泛化能力。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于评分数值分析的用户项目质量测度及其在深度推荐模型中的应用^*

郑潇, 李树青, 张志旺

数据分析与知识发现. 2022, 6 (4): 39-48. DOI: 10.11925/infotech.2096-3467.2021.0683

摘要

HTML ( 37 )

PDF(769KB) ( 284 )

【目的】 利用用户项目评分信息和时间段信息,设计一种反映用户项目质量的有效特征,并结合深度推荐模型改善推荐效果。【方法】 从用户评分和项目质量一致性、评分数值分布和基于时间段的评分数值分布三个方面,系统地提出对用户和项目质量特征进行评估的有效方法。【结果】 在MovieLens数据集上进行测试,与传统的深度推荐模型相比,本文所提模型的MAE和MSE分别最高提升达到3.71%和4.24%。【局限】 现有改进主要结合评分信息,没有探索包括用户项目更多属性特征的质量指标评定方法,在一定程度上影响了推荐效果。【结论】 本文所提推荐模型评分预测效果更加准确,缓解了深度推荐模型中数据有效特征缺乏和表现力不足等问题,提高了推荐质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

特征融合的中文专利文本分类方法研究^*

肖悦珺, 李红莲, 张乐, 吕学强, 游新冬

数据分析与知识发现. 2022, 6 (4): 49-59. DOI: 10.11925/infotech.2096-3467.2021.0852

摘要

HTML ( 76 )

PDF(1186KB) ( 295 )

【目的】 为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法。【方法】 基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有名词向量进行融合,并将专有名词的TF-IDF值作为权重对向量进行赋值。【结果】 在自建专利文本语料库上的实验结果显示,所提方法达到84.43%的准确率、82.01%的召回率和81.23%的F₁值,其中F₁值相较其他方法提升约5.7个百分点。【局限】 实验数据主要来源于新能源汽车领域,在其他领域中的效果有待验证。【结论】 改善了数据分布不均衡以及专利文本存在大量未登录词的问题。此外,通过消融实验,评估了方法中添加专有名词与TF-IDF特征的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

一种基于异质信息网络的学术文献作者重名消歧方法^*

邓启平, 陈卫静, 嵇灵, 张宇娥

数据分析与知识发现. 2022, 6 (4): 60-68. DOI: 10.11925/infotech.2096-3467.2021.0805

摘要

HTML ( 25 )

PDF(825KB) ( 233 )

【目的】 充分利用学术文献中的实体关系数据解决作者重名消歧问题。【方法】 从文献信息中抽取多种类型节点及其关系构建异质信息网络,采用网络表示学习方法获取作者节点的表示向量并利用聚类分析得到初步划分,最后基于强规则匹配融合多个聚类簇得到消歧结果。【结果】 在构建的Web of Science数据集下进行测试,本文方法的K-Metric平均值达0.842,较对比方法提升了63.18%,即使不考虑强规则匹配依然提升了34.69%。【局限】 该方法需要利用引文信息,应用场景具有一定的局限性。【结论】 基于异质信息网络,利用更丰富的实体关系对作者节点进行表示学习,能有效改善作者重名消歧的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于BERT-TextCNN的临床试验疾病亚型识别研究^*

杨林, 黄晓硕, 王嘉阳, 丁玲玲, 李子孝, 李姣

数据分析与知识发现. 2022, 6 (4): 69-81. DOI: 10.11925/infotech.2096-3467.2021.0712

摘要

HTML ( 42 )

PDF(1169KB) ( 596 )

【目的】 面向复杂疾病临床试验招募的需求,提出一种基于BERT-TextCNN的临床试验疾病亚型识别方法,辅助识别复杂疾病特定亚型的受试人群。【方法】 将临床试验疾病亚型识别问题转化为单标签分类问题,应用基于BERT-TextCNN的单标签分类模型进行分类,以卒中为例在临床试验数据集（ClinicalTrials.gov）上开展实验验证。【结果】 基于LP法的BERT-TextCNN模型性能最佳,加权宏平均F1值为0.905 3,可以有效判定一项卒中临床试验可纳入卒中亚型受试者情况。【局限】 缺乏在其他单病种上的可行性研究,以及在外部数据集上的有效性验证。【结论】 本文方法可以有效解决从纳入标准中准确识别复杂疾病亚型的问题。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向营商环境的知识图谱构建研究^*

刘勘, 徐勤亚, 於陆

数据分析与知识发现. 2022, 6 (4): 82-96. DOI: 10.11925/infotech.2096-3467.2021.0886

摘要

HTML ( 31 )

PDF(3267KB) ( 621 )

【目的】 构建营商环境知识图谱,提升营商环境信息资源利用率,发现营商环境发展因素内部实体关系,为决策分析提供支持。【方法】 以北京市营商环境政策文本为数据集构建营商环境知识图谱,提出一种融合依存句法分析和语义角色标注的营商环境知识抽取方法,构建组合模型分类器筛选实体关系三元组,计算语义相似度进行关系名称融合对齐,并设计实验探究Trans R模型在营商环境领域链接预测任务效果差异的主要影响因素和使用调整策略,完成知识推理。【结果】 所构建的营商环境知识图谱包含31 955种实体,1 847种关系,45 682个三元组,通过Neo4j和Gephi进行存储和可视化,支持使用Cypher语句进行知识查询。【局限】 由于营商环境文本上下文信息复杂,如何针对指代不明确的实体构建模型、提高营商环境政策文本知识抽取效果进而改善知识图谱三元组质量有待后续研究。【结论】 通过构建营商环境知识图谱揭示了营商环境领域知识之间的关联性,为营商环境知识问答系统构建、政府业务流程整合重塑和制定优化营商环境决策提供科学依据。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于元分析的社交媒体用户隐私披露意愿影响因素研究^*

李雪丽, 黄令贺, 陈佳星

数据分析与知识发现. 2022, 6 (4): 97-107. DOI: 10.11925/infotech.2096-3467.2021.0801

摘要

HTML ( 20 )

PDF(838KB) ( 483 )

【目的】 针对已有社交媒体用户隐私披露意愿影响因素实证研究之间结果不一致的问题,对相关文献进行综合梳理和再分析。【方法】 检索国内外社交媒体用户隐私披露意愿相关实证研究,最终纳入55篇文献,利用CMA3.0软件进行异质性检验、偏倚分析和效应值分析,探索社交媒体用户隐私披露意愿影响因素的作用效果。【结果】 纳入元分析的8个影响因素中,习惯（r=0.520）与隐私披露意愿强相关,感知收益（r=0.426）、信任（r=0.309）与隐私披露意愿中度相关,感知控制（r=0.221）、匿名性（r=0.175）、隐私关注（r=-0.166）、感知风险（r=-0.135）与隐私披露意愿弱相关,主观规范与隐私披露意愿不相关。【局限】 仅研究了从影响因素到披露意愿的简单影响路径,可能有部分中介效应或调节效应尚未被发现。【结论】 基于元分析构建的社交媒体用户隐私披露意愿影响因素模型,可以更加全面地展示影响社交媒体用户隐私披露的因素,为社交媒体平台功能完善和服务优化提供理论指导,为相关领域后续研究提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于定性定量融合方法的大数据用户画像模型设计与实证

吴文瀚

数据分析与知识发现. 2022, 6 (4): 108-119. DOI: 10.11925/infotech.2096-3467.2021.0880

摘要

HTML ( 21 )

PDF(2730KB) ( 552 )

【目的】 本研究设计了融合方法、采用地图引擎数据的年轻用户大数据画像的总体分析模型,尝试解决用户画像中定性定量方法的融合问题。【方法】 借助定性与定量相结合的方法,设计研究模型。基于社会学心理学理论构建用户价值观地图,利用Look-alike算法构建地图数据标签体系,利用K-Means聚类算法得到数据结果,并对数据结果进行业务解析。【结果】 使用该模型进行大数据实证,结果显示,年轻用户可以划分为20类群体,数据结果总量达到1.7亿、偏好标签数量达到606个,优于调查数据的结果。【局限】 对原始数据的调取存在限制,对于用户价值观地图运用中的主观性控制程度不足,同时对开发过程代码的触达有局限。此外,研究暂未涉及异构数据画像。【结论】 在2亿大数据基础上,对年轻用户进行画像,将用户调研方法论与用户大数据分析方法论进行结合,经过检验的方法论和模型对类似研究具有指导意义与价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于Transformer和图卷积神经网络的隐喻识别^*

郭樊容, 黄孝喜, 王荣波, 谌志群, 胡创, 谢一敏, 司博宇

数据分析与知识发现. 2022, 6 (4): 120-129. DOI: 10.11925/infotech.2096-3467.2021.0884

摘要

HTML ( 40 )

PDF(864KB) ( 465 )

【目的】 提出一种基于图卷积神经网络和Transformer的隐喻识别模型,既能有效识别单词隐喻,又能解决多个词语共同引发的隐喻表达。【方法】 利用图卷积神经网络提取句法依存树中的句法结构信息,联合从Transformer结构学习的深层语义表示,通过SoftMax计算目标词隐喻表达的概率。【结果】 在英文数据集UVA VERB 和 UVA ALLPOS上F1值分别提高1.9% 和1.7%,TOEFL VERB和 TOEFL ALLPOS上F1值分别提高1.1%和1.9%;在中文数据集CCL上F1值提高1.2%。【局限】 如果句子中存在歧义或者指代信息不明确的现象,则不能有效识别句子中的隐喻现象。【结论】 图卷积神经网络和句法依存树的引入确实能在一定程度上丰富目标词语义信息,提高单词和多词隐喻的识别效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于关键词抽取算法的隐喻研究趋势分析^*

张冬瑜, 顾丰, 崔紫娟, 胡绍翔, 张伟, 林鸿飞

数据分析与知识发现. 2022, 6 (4): 130-138. DOI: 10.11925/infotech.2096-3467.2019.0893

摘要

HTML ( 29 )

PDF(1181KB) ( 224 )

【目的】 针对中国近40年隐喻研究的发展和演变规律进行梳理和定量分析,旨在为相关语言学家和计算语言学家提供参考,缩小中国隐喻研究与国外先进水平的差距。【方法】 采用关键词抽取算法将隐喻文献映射为关键词集合,结合科学计量学原理筛选出6个有效特征作为回归模型参数预测下一年的热点词频度,对隐喻发展进行历时和共时分析。【结果】 对比5种回归模型预测结果,发现拟合程度最好的梯度上升回归树模型对下一年度的关键词预测精度最高,特征消融实验的结果也证实所选的每一个特征均有效。【局限】 关键词抽取算法的准确性有待进一步提高。【结论】 隐喻研究正在向多领域、多学科交叉的方向发展。本文特征选择的方法可以为隐喻自动识别研究提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价