期刊首页 当期目录

2019年, 第3卷, 第6期 
刊出日期:2019-06-25
  

  • 全选
    |
    研究论文
  • 李茹,李锐,蒋捷,吴华意
    数据分析与知识发现. 2019, 3(6): 1-11. https://doi.org/10.11925/infotech.2096-3467.2018.0767
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】探究会话尺度下群体用户对WMTS访问的时空统计特征。【方法】对用户访问会话进行识别并设计有效算法提取用户访问目标。从日访问会话数、会话请求数、会话时长、瓦片访问速度4个维度, 深入探究用户访问的时间属性分布特征; 从省份、城市及距离三个维度, 探究用户所在地与访问目标之间的空间关系。【结果】WMTS访问行为具有幂律特征, 大多数用户的访问简洁高效, 有明确访问需求; 信息化建设程度高的省份, 其用户访问更为集中和深入; 在访问内容的空间分布上, 以同省、同城访问为主, 约30%的访问目标集中于用户所在城市中心点43千米范围内。【局限】研究对象为访问WMTS频次较多的用户, 普适性有待验证。【结论】从会话尺度描述WMTS访问会话特征, 有利于深入理解用户地理信息需求的时空分布特征。

  • 易明,张婷婷
    数据分析与知识发现. 2019, 3(6): 12-20. https://doi.org/10.11925/infotech.2096-3467.2018.0696
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对大众性问答社区答案质量参差不齐的现状, 对答案质量排序方法进行探讨。【方法】依据信息接受模型, 从感知价值角度构建答案质量排序初始指标体系; 采用K-Medoids聚类算法对初始指标进行离散化, 同时利用粗糙集理论对初始指标进行约简并赋予权值, 进而修正指标体系; 运用加权灰色关联分析计算答案的加权灰色关联度, 以产生排序结果。【结果】针对“知乎”6类话题下6个问题的2 297条相关数据进行实验分析, 排序靠前的答案通常采用图文结合的表达方式、答案所含信息量高, 且回答者社区参与度较高, 从而答案的质量较高。【局限】数据规模需要扩大, 对排序方法的评价还可以优化。【结论】73名“知乎”用户对原始排序与本研究排序进行满意度评价, 结果表明本文方法具有优越性。

  • 傅柱,王曰芬,丁绪辉
    数据分析与知识发现. 2019, 3(6): 21-29. https://doi.org/10.11925/infotech.2096-3467.2018.0846
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为实现动态设计过程知识的有效重用, 研究设计过程知识的语义表示方法。【方法】在回顾和分析现有研究的基础上, 引入模块化设计思想; 分析设计过程知识的内容和特征, 提出基于双层模块化封装技术的设计过程知识语义模型, 结合本体表示方法对语义模型进行形式化表示; 以反后坐系统概念设计为例, 利用OWL语言实现案例中设计过程知识的语义表示。【结果】构建面向知识重用的设计过程知识语义模型, 利用本体对语义模型进行形式化表示; 采用OWL语言对反后坐系统设计的过程知识进行语义表示。【局限】采用单一案例进行分析, 方法的通用性需进一步验证。【结论】本文方法能够实现动态设计过程知识的语义表示, 通过案例分析验证了方法的可行性和有效性。

  • 杨亚楠,赵文辉,张健,谭珅,张贝贝
    数据分析与知识发现. 2019, 3(6): 30-41. https://doi.org/10.11925/infotech.2096-3467.2018.0827
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过多视图协同可视化的方式对时序文本挖掘过程进行可视化, 以实现多角度多层面洞察文本数据背后隐藏的规律和信息。【方法】基于文本词向量矩阵, 对多政策主体的政策时序文本, 通过数据清洗、计算TF-IDF值、构建向量空间模型、奇异值分解等文本挖掘技术进行信息提取和可交互的可视化探索分析。【结果】选取2016年1月-2017年8月北京市中关村示范区下属子园区的相关委内信息文本为样本, 采用文本挖掘技术和多视图协同可视化方法, 探索政策文本背后的规律, 验证了本文方法和框架的有效性。【局限】针对大规模文本具体细节单数据点的展示效果不佳, 文本挖掘技术有待进一步提升, 模型数据吞吐量有待基于大数据架构进一步增强。【结论】本文方法和框架能够对时序文本类数据做到充分的挖掘展示, 更好地把握数据背后的信息, 增强政策主体的决策依据。

  • 董晓舟,陈信康
    数据分析与知识发现. 2019, 3(6): 42-49. https://doi.org/10.11925/infotech.2096-3467.2018.0995
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过一个异质性混合模型, 根据消费者的电子折扣券弹性对消费者进行分类。【方法】利用国内一家大型线上零售企业22 234名会员的消费大数据与异质性混合模型构建一个基于电子折扣券弹性的混合模型, 并采用极大似然估计获得模型参数。【结果】实验结果表明相较控制对照组, 模型指导的策略组的电子折扣券使用率(兑现率)提升18.6%, 人均消费金额提升43元, 总体边际贡献提升35.9万元。【局限】会员归属某个潜在类别的概率函数之中只加入了会员等级这一个解释变量。【结论】该模型可以指导企业优化其折扣券等营促销工具的实施效果, 提升折扣券的兑现率与销售收入和毛利。

  • 姚俊良,乐小虬
    数据分析与知识发现. 2019, 3(6): 50-56. https://doi.org/10.11925/infotech.2096-3467.2018.1390
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】从科技查新候选检索结果中自动筛选与查新点语义相近的文献(期刊论文、专利)。【方法】设计基于Bi-GRU-ATT的深度多任务层次分类模型, 利用国际专利分类表(IPC)类别及专利数据, 训练多个不同层次分类模型, 利用少量论文数据进行Fine-tuning, 使之适用于论文和专利两种类别数据, 依照先父后子的次序识别查新点及候选记录的语义类别, 从而判定二者间的语义匹配度。【结果】在E21B专利分类下的两级分类模型中, 准确率分别达到82.37%和73.55%, 优于其他基准模型; 在使用真实查新点实验数据的语义匹配实验中, 语义匹配的精度达到88.13%, 比基准检索模型(TF-IDF)提高15.16%。【局限】仅在少量类别中开展训练, 还没有扩展到IPC所有分类中。【结论】初步实验表明该方法能够在一定程度上提升查新点语义匹配效果。

  • 程齐凯,王佳敏,陆伟
    数据分析与知识发现. 2019, 3(6): 57-65. https://doi.org/10.11925/infotech.2096-3467.2018.1159
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】从学术文献中发现领域基础词汇, 为把握学科知识结构和发展脉络提供支持。【方法】将引文网络引入到共词分析中, 构造关键词之间的引用共词网络, 采用PageRank算法对候选词汇重要性进行排名, 基于约11万篇计算机领域文献集进行实证研究。【结果】从定性和定量的角度与词频法和共词分析法进行对比, 结果表明本文方法效果较好, 能更好地拟合专家人工筛选结果, 盲选实验的平均准确度达72.6%。【局限】仅以计算机领域为例进行实验。【结论】本研究提出一种融合引用共词网络和PageRank算法的领域基础词汇发现策略, 能够提高领域基础词汇发现的效率和质量。

  • 黄菡,王宏宇,王晓光
    数据分析与知识发现. 2019, 3(6): 66-74. https://doi.org/10.11925/infotech.2096-3467.2018.1226
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】实现对大规模法律文本中法律术语的自动识别, 促进法律大数据的结构化进程。【方法】将条件随机场模型作为主动学习算法的分类器, 在经过K-means聚类后的语料库中, 按照分层抽样的方式抽取用于启动主动学习算法的初始样本, 将熵值作为主动学习的样例选择依据, 迭代地进行主动学习的学习过程及样例选择过程, 直到模型的调和均值F值趋于稳定时停止迭代, 输出最终的法律术语自动识别模型——AL-CRF模型。【结果】在中文裁判文书上的命名实体识别实验表明, 通过少量且高质的样本训练的AL-CRF模型对于法律术语的识别准确率和召回率可达90%以上, 且相较于等标注工作量训练的CRF模型F值提高4.85%。【局限】K-means聚类方法对噪声和离群点较为敏感, 可能会影响模型的识别效果。【结论】结合主动学习的条件随机场模型能在保证识别质量的情况下, 减少低质量样本的标注工作量。

  • 曾庆田,戴明弟,李超,段华,赵中英
    数据分析与知识发现. 2019, 3(6): 75-82. https://doi.org/10.11925/infotech.2096-3467.2018.1085
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】发现重要位置, 为用户行为轨迹特征和规律的研究提供良好数据支撑。【方法】提出融合用户表示方法的重要位置预测模型, 提出基于Word2Vec的用户行为轨迹的向量化表示方法; 基于用户向量相似度构建用户关系网络, 提取访问位置上的核心用户; 通过核心用户的访问行为进行重要位置预测。【结果】实验结果表明, 基于本文方法过滤后的核心用户对重要位置进行标注, 比直接标注的正确率提升7%。在地图上显示标注区域, 能够有效发现对应的住宅区和商业区。【局限】本文方法只能够识别居住地和工作地, 更加细粒度的标注有待进一步实现。【结论】本文所提基于用户表示学习的核心用户过滤方法, 对重要位置的标注具有重要意义, 同时为研究用户的轨迹行为特征和规律提供了更为科学的决策支持。

  • 祁瑞华,周俊艺,郭旭,刘彩虹
    数据分析与知识发现. 2019, 3(6): 83-91. https://doi.org/10.11925/infotech.2096-3467.2018.0887
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】尝试在图书评论主题抽取中引入自然语言语义信息。【方法】将常识知识库的全局语义信息应用到图书评论主题词发现和主题聚类任务中, 自动抽取评论中的显性主题词和隐性主题词。【结果】实验结果表明: 与双向传播算法相比, 基于知识库方法抽取结果的句覆盖率高出30.8%, 主题词汇多样性高出0.36%。以此为基础绘制主题词共词聚类图谱, 结合知识网络中的节点中心度呈现各个类簇中的关键主题词。【局限】由于目前没有成熟的图书评论领域知识库, 本文主题挖掘过程未引入领域知识, 还未达到最理想效果。【结论】基于知识库方法有助于提高图书评论主题抽取的句子覆盖率和主题词汇多样性。

  • 应用论文
  • 张旺强,祝忠明,李雅梅,卢利农,刘巍
    数据分析与知识发现. 2019, 3(6): 92-98. https://doi.org/10.11925/infotech.2096-3467.2018.0245
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】实现对机构知识库作者名消歧的高度自动化处理, 并在适当的时机提供人工介入机制。【方法】分析机构知识库作者名消歧的特殊性与消歧特征项, 依此构建机构知识库作者名通用消歧框架并实践部署。【结果】该框架在实际应用中取得良好的成效, 准确率达到99%以上。【局限】对缺失单位信息的作者名未进行处理; 作者别名与机构别名可能存在例外情况。【结论】该框架能够有效地解决机构知识库作者名消歧的难题, 在此基础上可构建更多的精准增值服务。

  • 刘勘,陈露
    数据分析与知识发现. 2019, 3(6): 99-108. https://doi.org/10.11925/infotech.2096-3467.2018.0824
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于患者的主诉和病史, 利用深度学习模型辅助解决医院预检分诊中准确分配科室问题。【方法】将卷积神经网络模型应用于医疗领域的短文本分类问题, 从非结构化的患者主诉文本中学习医疗术语之间的相关性, 进行预训练, 然后将预训练模型的结构、参数及其权重用于含主诉和病史文本的网络中进行调整, 从而得到最终的学习结果。【结果】该算法在数据集上F值达到88%, 超过当前最好的基线模型6个百分点, 同时发现在数据集内容和样本量大小相似的情况下, 使用预训练模型能够明显提高模型训练效率。【局限】本研究基于电子病历数据展开, 与直接使用分诊台患者自述数据相比可能存在差异, 对此有待进一步探讨。【结论】提出的分诊模型有较强分类能力, 能够辅助提高医疗分诊的效率, 推动精准医疗发展。

  • 杨海慈,王军
    数据分析与知识发现. 2019, 3(6): 109-116. https://doi.org/10.11925/infotech.2096-3467.2018.1240
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于中国历代人物传记资料库(CBDB)数据, 利用知识图谱的原理和方法描述宋代文人的学术师承关系, 为人文领域的知识发现提供新的技术实现方式和研究视角。【应用背景】聚焦当前数字化结果可读性较低、难以被直观应用的现状, 通过可视化表达CBDB数据库中的人物关系, 为相关历史研究者和爱好者提供知识发现和探索的数据入口。【方法】构建宋代学术师承本体, 并对数据库中的文人关系数据进行语义化转换。在此基础上开发“宋代学术语义网络”平台展示知识图谱的知识架构和数据内容。【结果】生成的知识图谱中共有5个类, 39个关系, 囊括48 018位人物和6 599条地理信息。“宋代学术语义网络”平台集成了RelFinder可视化工具, 用于检索和动态展示知识图谱中人物、地理实体间的关系。【结论】本研究为CBDB数据的语义化工作提供了理论和实践经验, 为历史学相关问题的研究提供了直观、高效、易用的工具。

  • 何振宇,董祥祥,朱庆华
    数据分析与知识发现. 2019, 3(6): 117-122. https://doi.org/10.11925/infotech.2096-3467.2018.1209
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】将用户使用行为作为百科词条分类依据, 找到并优化具有高使用价值与使用潜力的词条。【方法】结合国内外学者的研究成果, 选取用户使用程度与用户认可度作为研究指标, 基于波士顿矩阵和BP神经网络方法提出词条分类模型并进行自动分类。【结果】基于用户使用行为指标对词条做出分类并提出相应的发展策略; 自动分类方法可以准确判别单一词条所属的词条类别。【局限】对新生词条的研究不足, 未考虑丰富度、严谨性等难以准确量化的特征。【结论】拓展百科词条分类的新思路, 提出百科词条分类的新方法。