期刊首页 当期目录

2017年, 第1卷, 第11期 
刊出日期:2017-11-25
  

  • 全选
    |
    研究论文
  • 杨春雷
    数据分析与知识发现. 2017, 1(11): 1-11. https://doi.org/10.11925/infotech.2096-3467.2017.0877
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】以面向语用消歧的量化约束条件系统(Quantifier Constraint System, QCS)为例, 构建并实践从本体语言学到其计算实现的完整研究方法。【方法】首先, 阐释QCS的原理, 并介绍具体研究方法。第二, 提出甄别有效约束条件和组建系统的标准, 以及优化赋值的算法。第三, 详细描写与量化相关的词类和语法规律。第四, 使用类别描写语言(Type Description Language)对这些语言规律进行形式化描写, 并基于“汉构”和Zhong[|]计算语法进行计算实现。【结果】运用该研究方法, 可计算实现较为复杂的语言学现象(如量化、约束和前指解决方案等)。【结论】本文方法不仅有助于语言学的整体发展, 还可为相关学科(如人工智能、深层语言处理等)提供语言学方面的技术支持。

  • 杨建林, 刘扬
    数据分析与知识发现. 2017, 1(11): 12-18. https://doi.org/10.11925/infotech.2096-3467.2017.0544
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于常用的关联分类算法CBA进行PU学习研究。【方法】将训练集中比例为α的正样本作为未被识别出的正样本, 与负样本一起组成未标记样本集, 从而构建PU学习场景。其中, 基于全部正类别分类关联规则对样本进行分类, 并使用分类关联规则相对置信度衡量分类关联规则分类结果的可信度。【结果】当α取值分别为0、0.3、0.6、0.9时, 在实验数据集上, 本文方法的分类结果的AUC值较CBA算法分别平均提高6.21%、11.15%、13.50%、16.56%, 较POSC4.5算法分别平均提高11.27%、15.03%、12.22%、7.37%。【局限】由于未对全部样本中真实正样本所占的比例进行估计, 并据此对分类关联规则的置信度进行修正, 因而所提方法的分类效果随α取值的增长呈下降趋势。此外, CBA算法会产生大量的冗余规则, 而本文并未对其中的规则进行筛选。【结论】本文方法在PU学习场景中的分类效果优于CBA算法和POSC4.5算法。

  • 翟东升, 蔡文浩, 张杰, 李振飞
    数据分析与知识发现. 2017, 1(11): 19-28. https://doi.org/10.11925/infotech.2096-3467.2017.0766
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为满足中文商标侵权判定过程中检测语义相似度的需求, 提出一种改进的中文商标语义相似度计算方法。【方法】引入新参数改进传统的基于HowNet的中文商标语义相似度计算方法, 并收集大量商标数据作为相似度检测的支持数据以弥补HowNet词库的局限, 分别使用传统方法和改进后的方法对样本数据进行相似度检测, 并对比准确率验证改进后方法的有效性。【结果】实验结果显示, 改进后的方法比传统方法准确率更高、有更好的区分度。【局限】相似度检测支持数据——商标数据库中的数据量可以进一步丰富。【结论】改进后的中文商标语义相似度检测方法可以作为检测中文商标语义相似度的有效方法。

  • 刘通, 杨敬成
    数据分析与知识发现. 2017, 1(11): 29-36. https://doi.org/10.11925/infotech.2096-3467.2017.0566
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】设计并实现一种无监督的算法, 对在线医疗咨询服务中医生反馈内容的准确性进行自动评估。【方法】基于大量的在线咨询记录构造词汇之间的共现关系, 将其作为对给定咨询问题的标准反馈进行预测的统计模型。通过比较实际反馈和标准反馈之间的相似性, 可以获得医生反馈内容的准确性。【结果】通过对“好大夫在线”上的咨询记录进行评估, 并与人工标注结果比对, 本文算法在“严格匹配”和“软匹配”两种条件下可分别得到41.0%和82.4%的准确率。【局限】缺乏对文本中词汇顺序相关信息的考虑。【结论】本文算法可以帮助患者更有效地判断在线医疗信息的准确性, 提升患者的就医决策效果。

  • 徐健, 李纲, 毛进, 叶光辉
    数据分析与知识发现. 2017, 1(11): 37-45. https://doi.org/10.11925/infotech.2096-3467.2017.0606
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】对科技文献领域的被引片段概念的特征进行分析, 并比较不同识别方法效果的差异。【方法】以CL-SciSumm 2016比赛被引片段标注数据为例, 探索被引片段长度、位置与重要性特征, 并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、WordNet语义词典的相似性算法为例, 比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现: 被标注的被引片段有96%少于三句, 且更多地出现在文章前部和章节内的前部分, 被引片段的TextRank权重均值显著高于其他片段; 被引片段与引文上下文在长度上显著相关, 但在出现位置上相关性不明显; 无论从MMR°还是句子与词汇层面的匹配度来看, 基于词袋模型的识别方法效果均优于基于语义词典的方法, 而后者明显优于基于主题模型的方法。【局限】对于被引片段概念与特性的分析只停留在理论层面, 对其特征的分析与有关识别方法的比较也只是在CL-SciSumm 2016被引片段标注数据上进行的。【结论】科技文献的用词比较规范严谨, 所以词汇特征在被引片段的识别过程中起到关键的作用。

  • 张琳, 秦策, 叶文豪
    数据分析与知识发现. 2017, 1(11): 46-52. https://doi.org/10.11925/infotech.2096-3467.2017.0442
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】法言法语实体的自动识别是实现裁判文书文本挖掘的重要的基础性工作。【方法】采用爬虫方法获取数据, 人工方式进行语料标注, 利用NLPIR加载法律领域词典对语料进行分词, 结合法言法语的内部和外部特征构建基于条件随机场的特征模板, 自动识别语料中的法言法语。【结果】融入法言法语内部和外部特征的条件随机场模型, 自动识别法言法语的实验效果良好, 模型的调和平均值达到90%以上。【局限】法言法语实体自动识别模型在领域的扩展上有一定的局限性。【结论】基于条件随机场对法言法语实体实现自动抽取是可行的。

  • 刘冰瑶, 马静, 李晓峰
    数据分析与知识发现. 2017, 1(11): 53-61. https://doi.org/10.11925/infotech.2096-3467.2017.0707
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过一种特征降维方法解决传统词同现导致文本复杂网络处理大规模语料库时的高维性和稀疏性瓶颈问题。【方法】以共现概率表示词语间互信息值, 抽取大于阈值的词语组合, 以此为基础根据句法结构获得三级词条构建初始网络, 通过修正算法完成文本复杂网络的进化, 实现话题语义表达。【结果】以微博热门话题“全球爆发网络勒索病毒”下6 936条微博构建语料库进行实验, 得到具有217个节点, 2 019条边的网络模型, 并用于微博话题特征发现研究, 获得优化效果。【局限】文本复杂网络的网络节点权重赋值存在进一步探索的空间。【结论】该模型能够有效减少网络节点冗余, 同时提高了文本复杂网络对话题的语义表达效果, 为复杂网络理论用于文本挖掘提供一条新途径。

  • 原欣伟, 杨少华, 王超超, 杜占河
    数据分析与知识发现. 2017, 1(11): 62-74. https://doi.org/10.11925/infotech.2096-3467.2017.0694
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为了发挥用户创新社区及领先用户在企业开放式创新中的作用, 对用户创新社区情境下的领先用户识别方法进行研究。【方法】结合领先用户特征, 利用用户创新社区中的用户数据, 从用户内容信息和行为数据两方面抽取用户特征, 并在此基础上提出基于随机森林分类的领先用户识别方法。并以小米社区的MIUI论坛为例进行实例分析。【结果】实验结果表明, 本文提出的识别方法在领先用户和非领先用户之间具有较好的区分度。【局限】不同产品领域用户创新社区的用户生成内容和行为数据有一定差异, 本文仅以讨论小米手机操作系统的MIUI论坛为例, 涉及其他产品领域用户创新社区时, 用户特征抽取和相应的训练模型可能需要依具体情况适当调整。【结论】本文方法是一种适合用户创新社区情境的领先用户识别方法, 可以和传统方法有机结合, 以进一步提高此类社区领先用户识别的效率和效力。

  • 陈果, 肖璐
    数据分析与知识发现. 2017, 1(11): 75-83. https://doi.org/10.11925/infotech.2096-3467.2017.0752
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过构建知识元链接体系, 实现网络社区中碎片化知识的深度连通, 以有效引导用户知识探索中的横向扩展和纵向深入。【方法】首先构建领域知识库, 再融合知识元在知识库中的语义关联和在用户生成内容(UGC)资源中的共现相似度以生成知识元链接, 随后对UGC文档中的知识元进行标识, 指向自动生成的知识元内容页。【结果】以丁香园心血管论坛为例, 抽取心血管领域内概念单元2 211个, 细粒度概念关联5 741对, 对5 020条帖子内容进行知识元标注, 链向自动生成的知识元内容页面。【局限】仅关注知识元链接体系在个体知识单元组织中的利用, 尚未在知识组织宏观层面就其开展探索。【结论】知识元链接体系在不改变网络社区中现有的资源组织架构的前提下, 实现了知识元、UGC文档的多维关联, 具有很强的可用性和适应性。

  • 应用论文
  • 岳子静, 章成志, 周清清
    数据分析与知识发现. 2017, 1(11): 84-93. https://doi.org/10.11925/infotech.2096-3467.2017.0782
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】挖掘不同地区的用户饮食偏好, 从而揭示不同群体的饮食文化差异, 并为餐饮业提供建议。【应用背景】传统饮食偏好研究具有数据收集时间长、样本量少、成本高等不足, 而社交媒体的迅猛发展, 为获取大规模的用户饮食信息、挖掘用户饮食偏好提供了可能。【方法】以“大众点评网”的用户生成内容作为实验数据, 挖掘不同地区的用户饮食偏好, 揭示不同地区的饮食文化差异。【结果】来自经济相对发达地区的用户饮食偏好较为丰富, 同时, 地理距离与用户饮食偏好相似性之间存在显著负相关关系。此外, 味道、服务、环境受到各地区用户较高的关注。【结论】基于用户生成内容的饮食偏好挖掘能在一定程度上反映用户的饮食偏好, 揭示不同地区的饮食文化差异, 为相关研究提供参考。

  • 淮孟姣, 潘云涛, 袁军鹏
    数据分析与知识发现. 2017, 1(11): 94-102. https://doi.org/10.11925/infotech.2096-3467.2017.0646
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】建立科研项目负责人的信用评价体系, 并进行实证研究。【方法】采用现场访谈及邮件访谈方法, 收集并整理7名专家的意见, 从履约能力及履约表现两个方面建立科研项目负责人的信用评价体系。结合模糊综合评价法, 选取100名重大科研项目的负责人进行实证研究。【结果】实证结果表明, 所建立的评价指标体系可以较为有效地对100名科研项目负责人的信用进行评价。【局限】所采用的评价方法较为简单, 实证样本数据类型不够全面。【结论】所建立的评价指标体系具有一定的实用性和较强的可操作性, 可为科研项目管理者在判断科研项目负责人项目胜任程度时提供一定的参考。