期刊首页 当期目录

2019年, 第3卷, 第1期 
刊出日期:2019-01-25
  

  • 全选
    |
    主编寄语
  • 张晓林
    数据分析与知识发现. 2019, 3(1): 1-2. https://doi.org/10.11925/infotech.2096-3467.2019.0000
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 专题
  • 张冬荣,钱力
    数据分析与知识发现. 2019, 3(1): 3-3.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 钱力,谢靖,常志军,吴振新,张冬荣
    数据分析与知识发现. 2019, 3(1): 4-14. https://doi.org/10.11925/infotech.2096-3467.2018.1364
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】调研分析科技知识服务当前面临的问题, 研究设计基于科技大数据的智能知识服务体系, 提供智能语义检索、精准推送、群体智慧涌现与智能分析服务。【方法】以“数据+场景”双轮驱动, 利用自然语言处理与人工智能技术, 构建知识图谱、精准服务与智能情报三大知识引擎, 支撑新一代知识服务平台研发。【结果】构建科技大数据中心, 研发基于科技大数据的知识发现平台、智能随身科研助理、科技机构学术分析系统、科技大数据可视化全景观测平台以及科技大数据支撑与管理平台的开放学术生态环境。【局限】由于自然语言理解技术限制, 知识的丰富度、关联性以及知识图谱智能构建方法上有待进一步提高, 智能知识服务平台在精准服务上还有待提升。【结论】智能知识服务平台为科技情报分析提供知识挖掘与知识分析工具, 但其智能性与精准性还有待提升。

  • 王颖,钱力,谢靖,常志军,孔贝贝
    数据分析与知识发现. 2019, 3(1): 15-26. https://doi.org/10.11925/infotech.2096-3467.2018.1354
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】研究从科技大数据中提取结构化知识、构建学术知识网络的模型与方法, 支持智能知识服务产品的研发提升精准知识发现能力。【方法】提出科技大数据知识图谱的构建模型和技术架构, 在汇聚和融合科技大数据知识资源的基础上, 以大数据平台分布式存储和高性能计算为支撑环境, 详细设计和实现科研实体知识抽取、实体对齐和关系发现、知识融合与语义丰富化、语义化存储、质量管理等知识图谱构建技术。【结果】构建3亿实体和11亿关系的科技大数据知识图谱, 有效支撑科技大数据知识发现平台和“慧科研”智能随身助手的服务。【局限】由于数据的规模和复杂性, 知识图谱的质量管理仍需花费大量的人力, 实体对齐的准确度也有待于提高。【结论】本文提出的知识图谱建设方案适用于科技大数据的知识管理和深加工, 有助于科技知识的有效 利用。

  • 张建勇,钱力,于倩倩,董智鹏,黄永文,刘建华,郭舒,王峰
    数据分析与知识发现. 2019, 3(1): 27-37. https://doi.org/10.11925/infotech.2096-3467.2018.1363
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】建立机构规范、作者规范、期刊规范、基金规范, 为发现系统、科研实体分析评价等建立数据基础。【方法】以多源异构数据为基础, 对数据进行汇聚和融合, 形成具有唯一标识符的统一的结构化数据。依据名称规范元数据模型, 对科研实体及实体间的关系进行抽取。针对不同的科研实体可获取的文献特征, 制定不同的消歧规则集合, 结合传统字符串匹配方法和深度学习方法进行文本相似度计算。【结果】形成包含260多万条数据的机构规范库、2 300多万条数据的作者规范库、3万多条数据的期刊规范库和200多万条数据的基金规范库。以NSTL机构规范为例, 与InCites机构规范进行对比, 结果显示所遴选的美、英、中3个国家的6所高校, 对标吻合度平均值达到86.8%。【局限】所提出的消歧规则和算法在处理文献特征表达形式多样性方面有待进一步细化和提升;需对具体数据源数据情况进行分析,以选择合适的算法模型。【结论】本研究提出了多源异构数据汇聚融合方法, 设计了科研实体消歧规则和算法, 能够有效实现名称规范数据库建设的规范性和全面性。

  • 余丽,钱力,付常雷,赵华茗
    数据分析与知识发现. 2019, 3(1): 38-45. https://doi.org/10.11925/infotech.2096-3467.2018.1352
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】改进Bootstrapping方法, 建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库; 基于Bootstrapping技术自动构建大规模的标注语料库, 利用知识元评分模型和模式评分模型控制标注的质量; 基于已标注多类型知识元的语料库训练LSTM-CRF模型, 从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取“研究范畴”、“研究方法”、“实验数据”、“评价指标及取值”这4种知识元, 其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与, 未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型, 能够有效缓解“语义漂移”问题; 基于深度学习模型抽取知识元实现快速且正确率高, 为情报大数据智能分析提供了一种高效可靠的数据获取手段。

  • 付常雷,钱力,张华平,赵华茗,谢靖
    数据分析与知识发现. 2019, 3(1): 46-54. https://doi.org/10.11925/infotech.2096-3467.2018.1365
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础, 根据知识点的“热度”、“新颖度”、“权威度”三维指标, 筛选出权重较高的作为创新种子, 然后根据知识图谱的路径对创新 种子进行知识关联计算, 计算结果输入一个用大量科技论文数据训练而成的深度学习模型, 从而生成创 新主题; 采用的模型为由双向LSTM层组成的Sequence to Sequence模型。【结果】以人工智能领域内中 文科技论文作为实验数据, 实验结果表明, 模型的挖掘结果经过专家人为判断验证, 创新效果平均值为6.52。【局限】目前知识图谱的知识丰富度和关联性有限、用于训练模型的训练集质量和体量还有待于进一步提升。【结论】本文模型实现了从文本数据中挖掘出创新主题, 但创新主题识别模型的整体水平仍然需要进一步完善优化。

  • 胡吉颖,谢靖,钱力,付常雷
    数据分析与知识发现. 2019, 3(1): 55-62. https://doi.org/10.11925/infotech.2096-3467.2018.1357
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】突破基于关键词的传统文献检索方式, 为用户打造科技大数据知识发现平台, 实现文献检索到知识检索的转型升级。【方法】利用数据挖掘技术进行科研实体抽取与关系计算, 基于实体知识图谱构建分布式索引, 实现知识多维度检索呈现和关联导航。【结果】本文研发的知识发现平台, 在论文、项目、学者、机构等10类科研实体构建的知识图谱上实现了智能语义搜索和多维知识集成检索发现。【局限】当前知识发现平台主要建立在实体级别上, 语义检索有待进一步研究深化。【结论】基于知识图谱构建的知识发现平台实现了数据在知识层面的组织索引, 满足了用户精准知识检索需求, 提升了用户体验。

  • 谢靖,钱力,师洪波,孔贝贝,胡吉颖
    数据分析与知识发现. 2019, 3(1): 63-71. https://doi.org/10.11925/infotech.2096-3467.2018.1366
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】研究面向科研学术大数据的精准服务架构, 解决科研学者获取精准知识服务的问题。【方法】通过分析互联网应用精准服务现状, 从数据组织、技术方法、应用场景三个方面, 归纳对比精准服务的方法, 面向科研学术生态链条设计精准服务体系。【结果】精准服务架构设计梳理关联了数据生产、技术研发、应用服务环节, 支撑了科研学术的精准搜索与推荐服务应用。【局限】该架构未与传统方法对比, 还需结合实际应用评测验证精准性提升效果。【结论】本文解决了精准服务技术方法的单一性问题, 为应用系统研发提供系统的架构支撑。

  • 研究论文
  • 张紫玄,王昊,朱立平,邓三鸿
    数据分析与知识发现. 2019, 3(1): 72-84. https://doi.org/10.11925/infotech.2096-3467.2018.0506
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用HS编码数据中所蕴含的规律, 为海关税收风险判断分析提供有效的知识服务。【方法】提出直接以HS编码作为风险判别目标和以HS编码正误作为风险判别目标两种基于机器学习的自动分类方案解决HS编码风险判断问题, 针对编码目标的结构、特征的性质、文本的长短等特征构建与方案对应的SVM预测模型并进行相应实验。【结果】对以HS编码作为判别目标和以HS编码正误作为判别目标两种预测海关报关风险方案进行探讨与分析, 发现后者对训练数据的要求更低, 预测速度更快, 风险的识别效果也更好。【局限】仅获得4个月的数据, 可能存在样本代表性不足的问题。【结论】最终经过测试获得风险预测率较高的分类器, 为形成可实用的分类模型和判别系统提供了良好的知识基础。

  • 李静,刘潇,王效俐
    数据分析与知识发现. 2019, 3(1): 85-94. https://doi.org/10.11925/infotech.2096-3467.2018.0323
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】为提高金融机构理财决策知识获取的效率和有效性, 提出邻域粗糙集融合网格搜索组合分类器的理财决策知识获取模型。【方法】建立理财决策知识获取系统框架, 采用邻域粗糙集方法对决策系统进行知识约简, 采用SMOTE过采样方法消除数据的不平衡性, 采用网格搜索方法搜索组合分类器的最优参数。通过模型的训练和测试, 对约简组合进行评估和优选, 选出最佳约简; 最后, 通过约简获取决策系统的规则知识, 存入组织知识库, 完成知识获取。【结果】采用4 521条真实理财数据进行实证分析, 测试集购买类样本准确率(Sensitivity)达到83.55%, 未购买类样本准确率(Specificity)达到80.74%, AUC值达到0.8214。【局限】未针对保险、消费贷款等其他类型的营销数据进行验证。【结论】邻域粗糙集融合网格搜索组合分类器的分类模型能够有效提高理财决策系统的整体分类能力, 识别和获取关键客户知识, 提高金融机构理财产品决策的效益和效率。

  • 李慧,柴亚青
    数据分析与知识发现. 2019, 3(1): 95-103. https://doi.org/10.11925/infotech.2096-3467.2018.0158
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提出一种基于卷积神经网络的细粒度情感分析方法。【方法】在词向量模型中融入属性特征, 从细粒度即产品或服务的属性特征角度出发, 采用统计学方法抽取评论文本的属性词集, 融合属性特征的影响差异性, 构建基于评论对象属性特征的文本特征向量, 采用包含多粒度卷积核的CNN模型进行训练。【结果】融合属性特征的多粒度卷积核CNN模型训练结果相较于传统情感分类模型和常规CNN模型在准确率、召回率和F-score评价指标方面均有显著提高。【局限】仅选取一个领域的评论集。【结论】基于卷积神经网络的细粒度情感分析方法可以进一步提高情感分类准确性。

  • 刘俊婉,龙志昕,王菲菲
    数据分析与知识发现. 2019, 3(1): 104-117. https://doi.org/10.11925/infotech.2096-3467.2018.0394
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对新兴主题关联机会的发现方法进行实验性研究, 提供一种有效的新兴主题关联机会发现方法。【方法】以深度学习研究领域发表的文献集合为研究对象, 通过LDA主题模型方法挖掘文献内在特征, 进而以主题为节点, 通过链路预测对新兴主题关联机会进行预测。【结果】深度学习研究领域主题共现网络的最优指标为AA指标; 未来深度学习领域的大数据分析研究最有可能与生物医疗领域主题研究及深度学习算法自身机理改进主题研究产生关联。【局限】链路预测方法对连通性较差的网络预测结果欠佳。【结论】利用主题模型与链路预测相结合的方法进行未来新兴主题关联机会发现具有一定的有效性与可靠性。

  • 杨贵军,徐雪,赵富强
    数据分析与知识发现. 2019, 3(1): 118-126. https://doi.org/10.11925/infotech.2096-3467.2018.0414
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】基于用户网络评论构建有效的评分预测模型, 挖掘用户消费行为特征。【方法】基于LDA模型,量化用户评论为主题特征向量作为解释变量, 将用户评分作为被解释变量, 采用XGBoost算法, 并加入样本扰动和属性扰动生成多个模型进行集成, 构建用户评分预测模型。【结果】针对某汽车门户网站的用户评论评分预测结果表明, 该模型较好地揭示了用户对汽车商品的偏好。较逻辑回归、随机森林算法, 其预测准确度分别高出13.73%、0.64%, 且具有较高的计算效率。【局限】未融合其他方面的数据对用户行为特征进行更全面的刻画。【结论】将用户评论量化为主题特征向量, 基于XGBoost算法能够准确、高效地预测用户评分。