期刊首页 当期目录

2021年, 第5卷, 第12期 
刊出日期:2021-12-25
  

  • 全选
    |
    综述评介
  • 朱冬亮, 文奕, 万子琛
    数据分析与知识发现. 2021, 5(12): 1-13. https://doi.org/10.11925/infotech.2096-3467.2021.0516
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对基于知识图谱的推荐系统相关成果进行归纳梳理和展望总结。【文献范围】 以“knowledge graph”、“KG”、“recommendation system”、“RS”、“recommended system”、“知识图谱”、“推荐系统”等关键词在Web of Science、中国知网、万方等文献数据库中进行检索,经过文献筛选,对其中的70篇文献进行研究总结。【方法】 归纳总结基于知识图谱的推荐算法分类,对不同算法分类下的推荐系统发展历程进行梳理,介绍典型算法并对未来发展前景进行展望。【结果】 基于知识图谱的推荐系统按照算法思想差异可以分为基于连接的推荐、基于嵌入的推荐和基于混合的推荐。三种算法思想在不同的使用场景各有优缺点,如何充分利用图谱信息的同时减少算力消耗,未来值得关注。【局限】 由于渠道限制,未能得到基于知识图谱的推荐系统一定数量的商业落地实例进行剖析对比。【结论】 基于知识图谱的推荐系统有效改善了传统推荐算法的效果,结合机器学习思想的推荐算法值得进一步探索,如何在有效范围内降低模型消耗也需要考虑。

  • 周志超
    数据分析与知识发现. 2021, 5(12): 14-24. https://doi.org/10.11925/infotech.2096-3467.2021.0608
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 梳理和总结自然语言处理和机器学习技术在自动引文分类中的应用现状。【文献范围】 在Scopus数据库以citation classification、citation polarity、citation function、 feature selection等关键词为基础构建检索策略,筛选出代表性文献共46篇。【方法】 从引文分类流程、引文分类任务、技术方法等角度对当前研究进行分析和评述,并探讨研究趋势和挑战。【结果】 引文功能分类研究有从多分类向二分类转移的趋势;深度学习模型可以同时实现引文情感和功能分类;自动引文分类面临语料库学科单一、引用语境界定存在争议、分类数据不平衡性等问题。【局限】 主要基于文献对自动引文分类研究进行评述,对产业界的分类系统和平台的调研覆盖不够。【结论】 建议制定和完善关于代码、数据、语料等科研数据重用的评价方式,鼓励开放共享;结合引文分类和引文频次构建多维度的评价模型;基于用户的检索结果,智能化推荐支持该研究的文献或观点冲突的文献供进一步阅读。

  • 研究论文
  • 李纲, 余辉, 毛进
    数据分析与知识发现. 2021, 5(12): 25-36. https://doi.org/10.11925/infotech.2096-3467.2021.0524
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究准确率较高的技术供需文本匹配模型,提高技术供需匹配的效率,促进技术转移。【方法】 考虑技术供需文本的标题和正文两种文本结构层次,通过多种方法计算技术供需文本中的词相似度和语句相似度,借助深度学习模型进行融合,构建了基于多层语义相似的文本匹配模型。【结果】 实验结果表明不同层次的信息对匹配结果的影响程度不同,多层次信息融合的准确率达到96.50%,高于单一BERT方法的90.70%、DSSM的87.80%以及ESIM的87.50%。【局限】 模型只考虑了两个文本结构层次,未探讨更多种结构层次的效果。【结论】 所提模型可以为在线技术交易服务平台提供供需匹配方案参考,促进技术转移的实现。

  • 余本功, 张书文
    数据分析与知识发现. 2021, 5(12): 37-47. https://doi.org/10.11925/infotech.2096-3467.2021.0554
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决传统方面级别情感分析模型在词嵌入过程中未将上下文与方面词信息融合、需以复杂的下游结构提取特征等问题。【方法】 提出一种基于BERT的注意力门控卷积模型(BAGCNN),该模型由预训练BERT模型生成融合上下文语义的文本和方面词特征表示,并引入多头自注意力机制解决方面词长距离依赖问题,最后利用门控卷积网络并行地选择性提取与方面词信息相关的多层次上下文特征。【结果】 实验结果表明,与使用循环神经网络中效果最好的基准模型相比,本文模型精度在Restaurant、Laptop和Twitter三个数据集上分别提升4.24、4.01和3.89个百分点,且模型下游并行结构尺寸减小了1.27MB。【局限】 本文模型在文本长度差异大的数据集中分类效果较差。【结论】 在BERT和多头自注意力机制辅助下,BAGCNN模型中门控卷积网络可有效过滤与方面词无关的上下文信息。

  • 周文远, 王名扬, 井钰
    数据分析与知识发现. 2021, 5(12): 48-59. https://doi.org/10.11925/infotech.2096-3467.2021.0679
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出AttentionSBGMC深度学习模型,以提升引文情感和引文目的分类的性能。【方法】 采用SciBERT预训练模型得到语料集中句子的语义表示向量,根据文本特点,依次通过BiGRU神经网络和多尺度卷积神经网络(Multi-CNN)提取句子中的时序全局特征和局部关键特征,引入注意力机制对提取出的特征重新分配权重,达到突出关键特征的目的,最后通过线性层实现引文情感和引文目的自动分类。【结果】 在Abu-Jbara数据集上,引文情感主客观、引文情感正负面、引文目的三项分类任务的F1值分别为86.74%、91.14%和84.92%;在Athar数据集上,引文情感主客观、引文情感正负面两项分类任务的F1值分别为88.50%和86.59%。【局限】 鉴于公开的引文数据集的有限性,该模型仅在两个英文数据集上进行验证,在其他数据集上的泛化性能有待进一步验证。【结论】 所提AttentionSBGMC深度学习模型能全面、有效地提取出语料文本中的重要特征,可以更为准确地实现引文情感和引文目的自动分类。

  • 齐托托, 白如玉, 王天梅
    数据分析与知识发现. 2021, 5(12): 60-73. https://doi.org/10.11925/infotech.2096-3467.2021.0588
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探讨产品描述的信息质量和知识生产者的可信度对用户知识付费行为的影响机制以及考查产品类型的调节机理。【方法】 基于信息采纳模型,运用知乎Live的Python爬虫数据,结合文本分析与稳健回归分析方法,从产品描述的信息质量和知识生产者的可信度两个方面探究知识付费行为的影响因素,并将知识付费产品划分为实用型产品和享乐型产品,比较不同产品类型之间作用路径的差异性。【结果】 产品描述的详尽性、生动性和相关性显著正向影响知识付费行为;知识生产者的声誉、经验和信息完备性显著正向影响知识付费行为;与实用型产品相比,享乐型产品中知识生产者的声誉和经验对知识付费行为的作用关系更强。【局限】 尚未比较不同文化背景下知识付费行为的差异性,且仅采用截面数据研究了单一知识付费商业模式。【结论】 全面归纳了影响用户知识付费行为的关键因素,深化了信息采纳模型的应用价值,为知识付费产品的设计和营销提供了实践参考。

  • 杨思洛, 肖敖夏
    数据分析与知识发现. 2021, 5(12): 74-87. https://doi.org/10.11925/infotech.2096-3467.2021.0402
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 引入巴斯模型,弥补当前微信公众号内容传播研究中忽略其双层传播模式的不足。【方法】 通过对微信公众号内容传播过程的分析,提出结合巴斯模型和SIR模型的微信公众号内容传播模型。利用“图情会”公众号数据对模型拟合情况进行KS检验。利用Python语言对模型中参数及模型初始条件进行分析。【结果】 模型总体上能够对公众号内容的传播过程进行模拟。已分享过的读者不再进行分享的概率,以及非公众号订阅用户从他人转发分享中接触到信息的概率对公众号内容在目标群体中的扩散范围有较大影响。【局限】 本模型没有结合复杂网络模型作进一步分析,验证数据缺少阅读量“10万+”文章数据。【结论】 本研究提出的模型能够对微信公众号内容的传播监控及舆情管理提供一定的理论支撑。

  • 刘芳, 李华飙, 马晋, 闫升, 金沛然
    数据分析与知识发现. 2021, 5(12): 88-97. https://doi.org/10.11925/infotech.2096-3467.2021.0643
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 将深度学习算法应用于甲骨文拓片的自动检测与识别中,助力传统文化的研究与普及。【方法】 针对甲骨文拓片的图像特点创建数据集,在Mask R-CNN算法基础上,使用三元组损失函数和旋转角度回归技术进行优化,提高甲骨文字分类的准确性。【结果】 对于训练数据集,甲骨文字符召回率为82%,检测和识别准确率均可达到95%,能够满足项目预计的技术指标要求。【局限】 在文字残缺严重或漫漶等情境下,算法性能有待提升。【结论】 模型具备实际使用价值,可进一步完善并推广应用。

  • 吴胜男, 田若楠, 蒲虹君, 梁雯琪, 张亚飞, 于琦, 贺培凤
    数据分析与知识发现. 2021, 5(12): 98-109. https://doi.org/10.11925/infotech.2096-3467.2021.0583
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从社交媒体视角出发,提出一种全新的知识发现思路和方法,预测医药领域主题关联机会,实现新兴主题早发现、早研究。【方法】 以社交媒体为数据源,针对医药卫生领域文本挖掘研究方法存在的不足,提出Co-LDA主题模型和链路预测相结合的方法,预测核心主题关联机会。并选用新浪微博中糖尿病类药物数据为实验样本,对所提方法进行实例验证。【结果】 医药研究领域不含权主题共现网络链路预测AUC值高于含权网络,且最优指标为Katz指标;未来糖尿病药物领域研究最可能和药效学研究与治疗方案的改进、医药行业发展以及药物新适应症研究产生关联。【局限】 仅从语义角度进行主题挖掘,缺乏情感和时间维度的多层次分析;链路预测算法复杂度高且对于连通性较差的网络预测效果欠佳。【结论】 利用所提方法从社交媒体角度预测医药领域主题关联机会具有一定的科学性和有效性。

  • 朱路, 邓芳, 刘坤, 贺婷婷, 刘媛媛
    数据分析与知识发现. 2021, 5(12): 110-122. https://doi.org/10.11925/infotech.2096-3467.2021.0604
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过语义自编码器挖掘底层特征和高层语义之间的相关性,缩小不同模态数据之间的异构鸿沟,并结合哈希学习提高跨模态检索的精度和速率。【方法】 利用语义标签信息学习特征语义联合表示,构造语义仿射矩阵,结合自编码器和线性回归学习哈希函数,通过相似性度量获得最优的哈希码。【结果】 在WIKI、MIRFLICKR、NUS-WIDE三个公开数据集上进行验证,所提方法在4种不同码长下的平均MAP值较LSSH、FSH、ACQ、DBRC、SPDH、SePH、SMH中的最高值分别提高0.113 5、0.027 8、0.050 5。【局限】 所提方法主要适用于对多种模态数据进行线性投影,对于非线性问题未能取得较好的效果。【结论】 所提方法可以缩小多模态数据之间的异构鸿沟,将不同模态相似数据转化为相同的哈希码,有效提高了跨模态检索的精度和速率。

  • 任秋彤, 王昊, 熊欣, 范涛
    数据分析与知识发现. 2021, 5(12): 123-136. https://doi.org/10.11925/infotech.2096-3467.2021.0359
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。【方法】 首先从术语类别、语义结构和文本长度上分析戏剧语言特征。根据以上语言特征,以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入词性和领域特征。之后在BiLSTM后加入图卷积网络(GCN),更好地捕捉句子中远距离词语的约束关系。【结果】 融合GCN和外部特征的术语抽取模型F1值达到91.11%,比主流的BERT-BiLSTM-CRF高出1.3个百分点。【局限】 仅选择百度百科、非遗官网作为实验数据来源,并未验证将模型扩展到其他来源的自由文本中的识别效率。戏剧术语中某些类别的训练集偏少,且实验数据和模型中外部特征的选择不够全面。【结论】 本文根据传统戏剧语言特征,提出一种融合GCN和外部特征的戏剧术语抽取模型,构建了传统戏剧术语库,并将模型应用于术语库的扩充,为后续构建传统戏剧知识图谱打下基础。

  • 韩芳, 张生太, 冯凌子, 袁军鹏
    数据分析与知识发现. 2021, 5(12): 137-147. https://doi.org/10.11925/infotech.2096-3467.2021.0240
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于核心专利的技术融合测度和LDA主题模型,对突破性创新技术主题进行识别。【方法】 基于Innography平台界定核心专利,应用Rao-Stirling指数对核心专利的技术融合程度进行测度,挖掘具有突破性创新能力的专利,结合LDA主题模型识别技术主题,最后基于太阳能光伏领域进行实证研究。【结果】 太阳能光伏领域较强技术融合度的核心专利主要涉及光学、电学和建筑学等学科。共识别出12个突破性创新技术主题,主要涉及电池材料、太阳能光伏应用和热电系统。【局限】 未对不同专利分类体系下的技术融合测度进行探讨。【结论】 通过探索具有较强技术融合度的核心专利,结合文本分析法,可有效识别技术领域中具有突破性创新能力的技术主题。

  • 赵正, 黄倩倩, 童楠楠
    数据分析与知识发现. 2021, 5(12): 148-157. https://doi.org/10.11925/infotech.2096-3467.2020.0320
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 更好地理解和准确地把握新冠肺炎疫情期间惠企政策出台和实施的总体情况,推进政策目标的有效实现。【方法】 基于新冠肺炎疫情期间所出台的政策文本数据、企业注册与投资关系数据以及新冠肺炎确诊数据等多源数据,综合考虑各省政策出台文件数、政策评价三大指标得分、受灾程度、产业结构及与湖北经济联系程度等多方面,采用K-Means聚类方法,确定各省惠企政策偏离等级。【结果】 京、沪、闽等省市惠企政策偏离度等级为I级,湘、豫、云等省市偏离度等级为III级,惠企政策力度与其经济潜在受损程度不匹配,需补充采取更多惠企措施。【结论】 所提方法融合了计量经济学、指标评价和机器学习算法,以实证数据为基础,实现融合多因素的政策偏离度评价,具有现实意义和可推广性。