期刊首页 当期目录

2019年, 第3卷, 第10期 
刊出日期:2019-10-25
  

  • 全选
    |
    专题
  • 章成志
    数据分析与知识发现. 2019, 3(10): 1-1.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 朱惠,王昊,章成志
    数据分析与知识发现. 2019, 3(10): 2-11. https://doi.org/10.11925/infotech.2096-3467.2019.0028
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】基于大规模情报学文献了解中国情报学方法技术并探讨如何从“过程-问题”这一新视角组织这些方法技术。【方法】构建“过程-问题”视角下的情报学方法技术术语获取和组织模型: 解析情报过程及其包含的情报问题; 标注文献所属的情报问题; 分别采用基于词典和基于模板的抽取方法获得方法技术术语并将结果融合; 最终按过程、问题组织这些方法技术。【结果】运用上述方法获得按过程、问题组织的情报学方法技术术语, 验证了模型的可行性和有效性, 术语抽取的F1值达到90.91%。【局限】仅从CNKI采集实验数据, 对结果的全面性有影响; 情报学方法技术术语抽取模板还有待完善。【结论】词典和模板相结合的抽取方法可以较好地获取情报学方法技术术语; 从“过程-问题”视角组织情报学方法技术对于情报问题的解决具有指导作用。

  • 章成志,李铮
    数据分析与知识发现. 2019, 3(10): 12-18. https://doi.org/10.11925/infotech.2096-3467.2019.0055
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】依据学术论文全文抽取创新研究评价句, 分析创新研究评价句的特征与规律。【方法】以图书情报档案学科为例, 将学术期刊论文全文作为实验数据, 通过选取标志词、制定抽取规则抽取创新研究评价句。分别从标志词、类型、位置等方面分析创新研究评价句的分布情况。【结果】抽取的创新研究评价句主要可分为6个类型, 大多出现在论文前24.8%的位置。【局限】创新研究评价句的抽取方法有待优化。【结论】图书情报档案领域的创新研究评价句以概念理论类为主, 不同期刊的评价句类型也存在差异, 模型方法类的评价句位置分布较为分散。

  • 肖连杰,孟涛,王伟,吴志祥
    数据分析与知识发现. 2019, 3(10): 20-28. https://doi.org/10.11925/infotech.2096-3467.2018.1199
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对安全情报领域情报分析方法进行识别、归纳与总结, 为构建安全情报领域情报分析方法体系提供参考。【方法】以安全情报领域文献为数据来源, 对文献全文本进行汉字级的语料标注, 构建安全情报领域情报分析方法语料库, 在此基础上利用深度学习模型对情报分析方法实体进行识别。【结果】在安全情报领域情报分析方法语料库上进行实体识别对比实验, BiLSTM模型的情报分析方法实体识别准确率81.71%, 召回率77.26%,F1值79.36%; BiLSTM-CRF模型的情报分析方法实体识别准确率84.71%, 召回率79.25%, F1值81.83%。【局限】未考虑句子中包含情报分析方法的指代名词, 可能会对统计结果产生一定的影响。【结论】利用深度学习方法对安全情报领域情报分析方法实体进行识别是可行且有效的。

  • 徐浩,朱学芳,章成志,江川
    数据分析与知识发现. 2019, 3(10): 29-36. https://doi.org/10.11925/infotech.2096-3467.2019.0069
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】面向学术文献全文本抽取方法论实体, 识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体, 借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%, 召回率大于42%; 每个特征句中约包含1.42个方法论实体, 方法论实体的正式标引比率低于27%, 对特征句的正式标引比率低于35%, 学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低, 虽提供了人工标注界面加以辅助, 但工作量较大, 未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视; 本研究所设计的方法论特征句及实体抽取方法具备多学科通用性, 可进一步探讨方法论驱动的跨学科知识扩散路径。

  • 研究论文
  • 赵子豪,沈志宏
    数据分析与知识发现. 2019, 3(10): 37-46. https://doi.org/10.11925/infotech.2096-3467.2019.0252
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提出一套交互分析框架, 以屏蔽多元图数据模型、管理系统、查询接口协议的差异性, 提供面向图数据的在线交互分析服务。【方法】对图数据管理系统的服务接口和前端分析需求进行抽象, 设计形成开放可扩展的交互协议和总体框架, 并实现数据适配、交互分析应用等软件模块。【结果】该框架有效屏蔽了Neo4j、Jena等系统的异构性, 并满足图数据浏览、探索以及路径发现等交互分析需求, 为图数据的相关应用提供了良好的基础。【局限】需要针对大规模数据进行优化和完善。【结论】本框架可有效实现图数据管理系统与分析应用的接口解耦, 具有较大的应用价值。

  • 刘勘,杜好宸
    数据分析与知识发现. 2019, 3(10): 47-55. https://doi.org/10.11925/infotech.2096-3467.2018.1250
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】解决网络谣言分领域检测时某些领域标注数据不足的问题, 帮助在无标注数据的领域构建谣言 检测模型。【方法】提出一种深度迁移网络, 以Multi-BiLSTM网络为基础, 加入MMD统计量计算的领域分布差异, 训练过程中同时学习源领域的标签损失与领域间的分布差异, 完成标签信息在领域间的有效迁移。【结果】相较于未分领域的谣言检测方法和分领域但不使用迁移学习的谣言检测方法, 本文方法在F1指标上分别提升10.3%与8.5%。【局限】在数据分布差异大的领域迁移效果受到限制, 未涉及多个领域的谣言检测。【结论】本文方法可以有效地将迁移学习技术应用在分领域谣言检测场景下, 为网络谣言识别提供新思路。

  • 贾君枝,叶壮壮
    数据分析与知识发现. 2019, 3(10): 56-65. https://doi.org/10.11925/infotech.2096-3467.2018.1368
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】Wikidata机构类目范畴树中, 存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系, 需将这些实例进行划分, 使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响, 引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感, 因此采用潜在语义索引作为文本表示模型, 通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%, 取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集, 基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。

  • 高慧颖,魏甜,刘嘉唯
    数据分析与知识发现. 2019, 3(10): 66-77. https://doi.org/10.11925/infotech.2096-3467.2019.0043
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用用户信息和社交网络拓扑信息, 提出基于用户聚类与动态交互信任关系进行精准好友推荐的方法。【方法】基于用户信息进行特征向量建模, 改进K-Prototypes算法分类型变量的距离计算公式, 并使用改进的K-Prototypes算法将最有可能成为好友的用户预先聚为k个簇类, 然后在每一簇中基于拓扑社交网络信任关系对目标用户进行好友推荐。从全局信任关系和交互信任关系两个维度衡量用户之间的拓扑网络信任关系, 并创新性地引入三个动态信任调节因子对交互信任度进行调节。最后在各个簇中融合全局信任度和动态交互信任度计算动态综合信任度, 基于此为用户产生Top-N好友推荐列表。【结果】通过与传统的好友推荐方法FOAF和SNS+Content进行比对, 本文基于用户聚类与动态交互信任关系的好友推荐方法在准确性、召回率、F1-Measure指标上均高于传统方法。【局限】本文的信任衡量模型只涉及多对一和一对一之间的群体信任关系, 暂未考虑到一对多、多对多的群体信任关系。【结论】本文综合利用用户信息和社交网络拓扑结构信息, 深度挖掘用户间交互行为变化所反映的动态信任关系, 能为社交用户做出更有效的好友推荐。

  • 钟庆虹,乔晓东,张运良,翁梦娟
    数据分析与知识发现. 2019, 3(10): 78-88. https://doi.org/10.11925/infotech.2096-3467.2019.0052
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】在跨媒体融合机制的理论基础上, 优化特征提取以解决异构数据间的语义鸿沟问题。【方法】基于LDA2Vec和ResNet V2模型分别对文本和图片两种媒体形式进行特征提取, 通过语义关联匹配将异构的文本图片特征信息映射到一致性表达空间中, 完成检索。【结果】相比使用LDA和SIFT算法进行特征提取的跨媒体融合实验, 本文方法将文本、图片相互检索的MAP值提高到0.454。【局限】跨媒体数据集的训练集数量不够导致特征训练效果有限; 仅考虑优化特征提取方法对跨媒体融合实验效果的提升有限。【结论】本文所提方法能够改善跨媒体融合的实验效果, 从跨媒体融合过程入手, 为跨媒体融合研究提供了新的研究思路。

  • 李钰曼,陈志泊,许福
    数据分析与知识发现. 2019, 3(10): 89-97. https://doi.org/10.11925/infotech.2096-3467.2019.0081
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】通过提高文本内容表示的数据质量, 关联文本内容和文本标签向量, 从而提高文本分类的效果。【方法】改进关键词的抽取方法, 并使用关键词向量表示文本, 提出类别标签表示算法对文本类别进行向量化表示, 提出基于注意力机制的胶囊网络作为分类器, 构建KACC模型, 并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量; 实验结果表明, KACC模型在准确率、召回率、F值三方面均优于现有模型, 分类准确率达97.4%。【局限】实验数据规模受限, 未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。

  • 蒋武轩,熊回香,叶佳鑫,安宁
    数据分析与知识发现. 2019, 3(10): 98-109. https://doi.org/10.11925/infotech.2096-3467.2018.1108
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用网络社群话题及成员兴趣标签网络为社群动态生成能够表征其特点及短期关注兴趣的社群标签。【方法】利用BTM模型挖掘社群话题短文本的主题, 并根据社群成员兴趣标签网络的特征, 挖掘社群成员关注兴趣点, 综合两者结果生成社群动态标签。以“豆瓣小组”为例对模型进行实证。【结果】基于话题社群标签与社群特征具有强关联性、稳定性强, 基于成员兴趣网络标签能够及时准确表征社群动态兴趣。【局限】样本数据集不能涵盖所有类型的网络社群, 仅从两类社群验证了模型的准确性与有效性。【结论】基于社群话题及成员兴趣的社群标签动态生成模型能够准确挖掘出社群特点及成员短期关注点, 提高社群定义的及时性与准确性, 解决用户信息获取、网络社群选择的困难。

  • 代君,郭世新,王慧,廖莹驰
    数据分析与知识发现. 2019, 3(10): 110-117. https://doi.org/10.11925/infotech.2096-3467.2018.0830
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】研究Pull-Request模式下, 开源项目成功与协同开发行为特征的关系。【方法】从GitHub上获取大量Apache项目数据集, 量化项目成功以及协同开发行为特征指标, 通过统计分析检验各行为特征指标与成功的相关性。【结果】二元逻辑回归显示“核心成员占比”、“代码提交频率”、“文件平均修改次数”对于项目技术成功的影响优势比分别为0.037, 1.427, 0.327; 线性回归显示“核心成员占比”、“修改文件占比”、“文件平均修改次数”对于项目商业成功的影响标准系数分别为-0.426, 0.221, 0.195。【局限】样本种类分布不够均衡, 影响因素考虑不够完善。【结论】本文为提出引导项目成功的开源软件开发过程管理对策提供了参考。

  • 扈文秀,马丽,张建锋
    数据分析与知识发现. 2019, 3(10): 118-126. https://doi.org/10.11925/infotech.2096-3467.2019.0192
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】构建股票日内交易加权网络, 选取刻画网络特征的主要参数, 识别超短期股票交易型操纵。【方法】基于股票日内Tick交易数据, 以买卖双方的委托报单ID为节点, 以委托报单是否成交为连线, 以双方的实际成交量为权值构建股票日内交易加权网络。采用Pajek5.03、Ucinet6两款分析软件获得复杂网络统计参数, 进而构建股票超短期交易型操纵识别模型。【结果】实证分析结果表明, 加权平均节点度、网络密度等9项网络参数是判断公司股票是否被实施超短期交易型操纵的主要识别参数, 识别模型样本内与样本外检验整体准确率分别为93.58%与87.73%。【局限】仅选取2015年牛市的样本, 未收集到熊市样本共同分析。【结论】本文所构建模型解决了超短期股票交易型操纵难以识别的问题, 为证券监管部门准确打击市场操纵行为提供技术支持。