期刊首页 当期目录

2022年, 第6卷, 第8期 
刊出日期:2022-08-25
  

  • 全选
    |
    综述评介
  • 鲁英杰, 张应龙
    数据分析与知识发现. 2022, 6(8): 1-11. https://doi.org/10.11925/infotech.2096-3467.2021.1358
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对基于社会网络的结构多样性相关研究成果进行总结梳理并展望,为后续的相关研究提供参考与借鉴。【文献范围】 以“Structural Diversity”“Structural Diversity and Social Networks”“结构多样性”“结构多样性 and 社会网络”等检索式分别在Web of Science、Microsoft Academic、DBLP等英文数据库以及CNKI、万方、维普等中文数据库进行检索,限定发表时间为2012年4月至2022年4月,共得到1 619篇文献,经过整理阅读并通过引文网络或数据库检索等方式对代表性文献涉及的相关理论进行溯源,最终筛选出55篇相关文献进行评述。【方法】 对结构多样性进行理论溯源,分析概括其存在的问题,从模型改进、高效算法、实际应用三个主要方面论述结构多样性的研究现状,并对未来研究提出展望。【结果】 结构多样性为基于网络拓扑结构特征,研究影响个体做出重大决策机制的模型。但原始模型存在普适性较差、模型精度不够高等问题,与图挖掘技术结合优化后表现优秀,已被应用于多领域中。【局限】 只针对结构多样性研究进行梳理总结,未能与其他社会传染理论进行比较。【结论】 图挖掘算法可以在一定程度上消除结构多样性模型存在的群体划分缺陷;结构多样性可以作为寻找高影响力节点的指标且需要高效搜索算法作为支撑;结构多样性已在行为预测、链接预测等领域有所应用,并可与其他特征组合优化模型,但依旧需要更多实际应用的检验。

  • 吕海华, 李江
    数据分析与知识发现. 2022, 6(8): 12-19. https://doi.org/10.11925/infotech.2096-3467.2022.0099
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过对常识化后免于引用(OBI)现象的发展脉络与研究进展进行评述,重新理解“引用”的本质。【文献范围】 以“obliteration by incorporation”、“OBI”、“知识扩散”、“知识老化”等检索词在Web of Science、谷歌学术、中国知网进行检索,筛选出72篇代表性文献。【方法】 从知识生产、知识扩散以及知识老化三个方面对OBI现象的现有研究进行梳理和对比分析。【结果】 OBI现象的知识贡献与学术价值无法通过引用来体现,因此,“引用”并不能充分体现知识扩散。【局限】 对于OBI现象的测度有待进行更深层次的探索。【结论】 早在半个世纪前,OBI现象就已经被观察到,但至今仍未引起足够重视。科学计量学界应在OBI现象的基础上重新认识“引用”的本质。

  • 研究论文
  • 欧桂燕, 庞娜, 吴江
    数据分析与知识发现. 2022, 6(8): 20-30. https://doi.org/10.11925/infotech.2096-3467.2021.1233
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 分析影响专利审查周期的因素,探索中国人工智能领域专利审查周期背后的作用机理。【方法】 以中国人工智能领域的78 254件发明专利申请为研究对象,运用生存分析中的Kaplan-Meier方法与Cox比例风险回归模型探索领域内的专利审查概况,并从专利客体特征以及专利主体特征出发探索显著影响该领域专利审查周期的因素。【结果】 结果显示,中国人工智能领域发明专利审查过程的平均生存时间为32.81个月。其中,权利要求数、IPC分类号数以及发明人数是专利审查周期的保护因素,对其延长具有促进作用;专利引文数是危险因素,专利引文数越多的专利获得授权所需时间越短。申请人类型中,高校及科研机构、以及机关团体与个人相比,均花费更短的专利审查时间。企业会降低专利从申请到授权的风险率,其所需专利审查周期更长。【局限】 专利审查周期与专利局的审查流程、专利审查员的个人特征具有密切联系,未能获取与之相关的更细粒度的数据进行分析。【结论】 基于本文研究结果,未来可以进一步结合不同技术领域、申请主体特点建立多样化审查模式、加强专利审查过程中自动化技术使用以及设立分类审查标准以提升整体专利审查效率。

  • 柳林林, 宫大庆, 张玉洁, 白如江
    数据分析与知识发现. 2022, 6(8): 31-40. https://doi.org/10.11925/infotech.2096-3467.2021.1042
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 将因果思想引入技术机会发现,提出从技术文本的因果知识中识别技术机会,并以电动汽车充电桩为例进行实证研究。【方法】 提出因果对自动抽取、因果网络构建、技术机会匹配发现三步骤法。首先,利用规则匹配方法,基于因果触发词和规则模板,自动抽取出多源数据中蕴含的因果对,并以三元组结构表征;然后,构建包含技术要素的因果网络;同时,通过情感识别、需求词抽取等步骤发现用户使用过程中的需求因素;最后,通过对因果网络进行链路预测,补全潜在因果关联,并与用户需求因素进行匹配,最终实现技术机会发现。【结果】 分析发现,充电桩的电池性能和价格费用分别是提升技术性能和用户满意度的关键因素。通过对比两种算法,结果显示,GraphSAGE算法比Node2Vec算法能更准确预测连边,有效识别充电桩的潜在技术机会。【局限】 因果网络的稀疏性导致准确性还有待提高。【结论】 所提方法能够促进科学技术的创新机会识别,旨在发现潜在的不确定性问题,为进一步的技术优化和产业升级提供参考。

  • 赵鹏武, 李志义, 林小琦
    数据分析与知识发现. 2022, 6(8): 41-51. https://doi.org/10.11925/infotech.2096-3467.2021.1079
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究中文人物实体关系中动态语义信息的特征抽取和中文人物关系识别。【方法】 采用公开的人物实体关系语料集,使用注意力机制+改进的卷积神经网络模型(CNN+Attention)从训练数据中自动提取特征,从不同模型实体关系识别效率、不同关系标签实体关系抽取效果以及不同向量训练集实体关系抽取效率等多维度进行对比和验证。【结果】 在中文人物关系抽取任务上,CNN+Attention模型的预测准确率和全局性能均优于SVM、LR、LSTM、BiLSTM以及CNN模型,并比抽取效果相对较优的BiLSTM模型准确率提高0.92个百分点,召回率提高0.86个百分点,F1值提高0.80个百分点。【局限】 仅使用单一的样本数据来源,未拓展多种数据来源渠道,样本数据集范围不够广。【结论】 基于注意力机制的卷积神经网络,在中文人物关系抽取任务中能够有效地提升实体关系抽取的准确率和召回率。

  • 丁晟春, 刘凯, 方振
    数据分析与知识发现. 2022, 6(8): 52-60. https://doi.org/10.11925/infotech.2096-3467.2021.1125
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决传统主题爬虫容易出现爬取率低和主题相关度不足的问题。【方法】 基于 Shark-Search算法,提出两步式动态扩充主题词表的主题爬虫算法Two-step Dynamic Shark-Search(TDSS),将传统算法中主题相关性计算拆分为链接主题相关性和页面主题相关性两个单独步骤。通过相关资料和工具建立并拓展的主题词表,并在爬虫运行过程中从主题相关页面提取新的关键词补充到主题词表中,提升主题判断的效果。【结果】 在相同的实验环境下,TDSS主题爬虫方法比对比算法的爬准率最多高14.2%,采集效率最多高35%。【局限】 动态主题词扩展算法需进一步完善,主题词表过度扩充会降低爬准率。【结论】 基于TDSS的主题爬虫能够有效提高获取主题信息的准确率,爬取更多与主题相关的网页。

  • 吕婉莹, 赵洁, 黄流深, 董振宁, 梁周扬
    数据分析与知识发现. 2022, 6(8): 61-74. https://doi.org/10.11925/infotech.2096-3467.2021.1153
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 使用特征分组和组合思想,前者在数据缺失情况下提供可替换特征进行信任评估,并降低组合搜索空间;后者有效降维,进一步缓解数据缺失导致信任评估困难的问题。【方法】 基于Markov Blanket分析特征间的感知信任分辨能力关系,对特征分组,使组内特征分辨能力相似;基于变领域搜索方法,进行组内和组间搜索,完成特征组合。【结果】 特征值缺失情况下,信任评估效果稳定,有效提供替补特征;信任特征维度降至1.7%,信任评估平均精度高于92%。【局限】 仅讨论缓解数据缺失问题的方法,未讨论如何利用含缺失值数据的知识。【结论】 融合特征分组和组合,能提供高效的信任评估模型,从双方面缓解信任评估中数据缺失引致的难题。

  • 周宁, 靳高雅, 石雯茜
    数据分析与知识发现. 2022, 6(8): 75-83. https://doi.org/10.11925/infotech.2096-3467.2021.1162
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出融合神经网络与全局推理的实体共指消解模型,解决文本内实体信息复杂,指代信息具有不明确性且分布稀疏的问题,探索更有效的共指消解算法。【方法】 首先,利用神经网络模型抽取出文档中的实体和其前指词;其次,结合句子的上下文信息进行全局推理,将此推理结果加入神经网络模型中,从而提高实体共指消解的精确度。【结果】 在OntoNotes 5.0数据集上进行实体共指消解实验,结果验证了所提算法的有效性。融合神经网络与全局推理的实体共指消解算法能有效地提高共指消解性能和更好地理解文本语义信息,最终在CoNLL评测标准下F1值达到74.76%。【局限】 需加入更精确的知识推理。【结论】 与近几年其他的共指消解模型对比实验结果证明了所提算法的实用性与有效性。

  • 施运梅, 袁博, 张乐, 吕学强
    数据分析与知识发现. 2022, 6(8): 84-96. https://doi.org/10.11925/infotech.2096-3467.2021.1245
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对网络“水军”发布的虚假评论信息在电商网站泛滥的问题,集成了一种面向中文电商网站评论的融合图像信息与文本语义的虚假评论检测方法(IMTS)。【方法】 IMTS方法使用文本卷积神经网络及BERT预训练模型分别对文本评论信息进行特征提取,并得到对应的特征向量。再融入评论者特征,通过拼接评论文本语义与评论者ID的输出特征,进一步加强模型对整体语义信息的捕捉。将用户在评论中发布的图片利用残差网络进行特征抽取,获得对应的视觉特征,最后将文本特征与视觉特征进行多模态融合,检测虚假评论。【结果】 IMTS方法在自建的多模态中文虚假评论数据集上,达到0.963 6的准确率、0.963 5的召回率以及0.963 5的F1值。【局限】 限于计算能力,本文数据集规模较小,且在文本处理阶段使用了BERT预训练模型,在大规模的数据计算情况下,时间成本较高。【结论】 运用多模态思想以及特征融合方法对虚假评论文本进行特征补充从而检测虚假评论是有效的,此方法可以有效提升虚假评论整体的检测精度。

  • 李川, 朱学芳, 富子元
    数据分析与知识发现. 2022, 6(8): 97-109. https://doi.org/10.11925/infotech.2096-3467.2021.1266
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究社会演化分析和系统动力学方法在大学生舆情预警及策略研判的应用。【方法】 基于用户行为理论进行舆情系统分析,利用系统动力学仿真分析舆情要素、官方机构、社会媒体、大学生及互联网环境对舆情的作用机理,构建大学生网络舆情预警系统动力学模型。【结果】 通过三组仿真实验对模型假设进行分析判断,验证了舆情控制要素的影响范围,证伪了公信力的控制效应,较其他模糊认知模型,ACR提升1.4%,CPT降低50%。【局限】 由于关联因素的提取依赖研究对象和环境演化,模型需要持续优化,按照子系统划分组织专业团队检验调整。【结论】 运用仿真拟合实验法初步得出了预警机制、官方公信力、事件属性等控制要素对舆情的影响,并以此提出一种面向大学生舆情问题的信息分析方法。

  • 胡吉明, 钱玮, 文鹏, 吕晓光
    数据分析与知识发现. 2022, 6(8): 110-121. https://doi.org/10.11925/infotech.2096-3467.2021.1167
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。【方法】 依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。【结果】 在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率和F值分别达93.20%、95.19%和94.19%;在文本表示的分类验证实验中,所提病历文本表示方法的分类准确率达到92.12%。【局限】 需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。【结论】 本文将病历结构功能信息引入病历文本表示工作,实验证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。

  • 曲宗希, 沙勇忠, 李雨桐
    数据分析与知识发现. 2022, 6(8): 122-133. https://doi.org/10.11925/infotech.2096-3467.2021.1269
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 预知重大传染病的发展趋势可提前制定应对措施,探索基于多机器学习的集合预测方法构建准确有效的传染病疫情预测模型。【方法】 建立融合多机器学习的重大传染病集合预测模型,基于灰狼优化算法搜索获得集合模型的最优权重系数。通过COVID-19疫情数据设计实验评估模型预测性能。【结果】 ANFIS、LSSVM和LSTM分别适用于确诊、死亡和恢复病例情景;基于灰狼优化的集合预测模型在三种情景下的平均R2分别达到0.989、0.993和0.987,相较于各单项模型的平均RMSE分别降低了37.37%、63.93%和53.37%。【局限】 模型需使用其他重大传染病疫情数据进一步验证。【结论】 不同机器学习的预测表现各有所长,基于灰狼优化的集合预测模型能够有效融合多机器学习的优势,从而获得稳定、精确的预测结果。