Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2017年, 第1卷, 第2期 刊出日期:2017-02-25   
    选择: 合并摘要
    综述评介
    专家检索与专家排名研究评述*
    叶光辉, 夏立新
    数据分析与知识发现. 2017, 1 (2): 1-10.   DOI: 10.11925/infotech.2096-3467.2017.02.01
    摘要   HTML   PDF (555KB)

    目的】对已有专家检索与专家排名方法进行评述, 为后续研究提供理论基础。【文献范围】从Web of Science (WOS)、CNKI等数据库中分别以“专家检索(Expert Retrieval)”、“专家排名(Expert Ranking)”、“排名融合(Ranking Fusion)”等为检索词搜集获得相关文献65篇。【方法】针对专家检索覆盖面不足及专家特征计算量大两方面问题, 从专家检索评测和排名融合两个角度梳理并评析现有的研究进展。【结果】融合关系属性是目前专家检索方法的主流, 检索结果可信度研究主要依据用户满意度和文档可信度开展; 专家排名采用友邻推荐模型、PageRank、D-S理论、社交网络与复杂网络分析等实现排名及排名融合, 融合结果总体优于基准排名。【局限】不同排名融合方法间的横向对比研究较少。【结论】相关研究可为构建信息融合视角下的专家会诊平台提供参考, 具体体现在专家信息组织、专家遴选和专家意见融合环节。

    图表 | 参考文献 | 相关文章 | 多维度评价
    研究论文
    改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*
    田世海,吕德丽
    数据分析与知识发现. 2017, 1 (2): 11-18.   DOI: 10.11925/infotech.2096-3467.2017.02.02
    摘要   HTML   PDF (1443KB)

    目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情, 导致预警力度不强、缺乏透明度及敏感性、使突发性安全问题时有发生且无法得到及时处理的现状, 提出一种新的舆情预警模型。【方法】通过元搜索技术挖掘舆情信息, 增加基准偏移值优化情感特征项倾向性权重, 添加修正因子以改进潜在语义分析和支持向量机(LSA+SVM)算法, 构建舆情分类预警模型。【结果】以多组突发性安全事件为例, 应用Matlab进行仿真实验。结果证明该舆情预警模型切实可行, 反应迅速, 在语义维度为10时准确率可达85.75%。【局限】此方法对于能引起关注和讨论的安全事件更加有效。【结论】改进算法适用于舆情预警, 可为企业和监管部门根据分类结果及时采取有效的预警措施提供合理化建议。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于LDA模型的移动投诉文本热点话题识别*
    方小飞,黄孝喜,王荣波,谌志群,王小华
    数据分析与知识发现. 2017, 1 (2): 19-27.   DOI: 10.11925/infotech.2096-3467.2017.02.03
    摘要   HTML   PDF (726KB)

    目的】运用中文信息处理和话题识别与追踪的方法, 从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手, 使用k-means先对文本聚类。利用LDA对每个类进行建模, 提取话题, 并从词频、词跨度和词长三方面计算每个话题中词的权值, 把权重最大的词作为该话题的标签, 并计算每个话题的文档分布概率均值。对具有相同标签的话题, 先按照均值最大的原则去掉重复标签话题, 再对所有话题计算文档支持率, 并将文档支持率作为话题的热度, 通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模, 通过对比一般话题和热点话题, 得出热点话题的支持文档率至少是一般话题的3倍, 支持文档率变化趋势也比一般话题高, 说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的, 对今后此领域的研究具有一定的借鉴意义。

    图表 | 参考文献 | 相关文章 | 多维度评价
    词向量聚类加权TextRank的关键词抽取*
    夏天
    数据分析与知识发现. 2017, 1 (2): 28-34.   DOI: 10.11925/infotech.2096-3467.2017.02.04
    摘要   HTML   PDF (793KB)

    目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据, 生成词向量模型, 对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3时, F值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7时, 结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    社会化标注中用户动态标签云构建研究*
    数据分析与知识发现. 2017, 1 (2): 35-40.   DOI: 10.11925/infotech.2096-3467.2017.02.05
    摘要   HTML   PDF (534KB)

    目的】标签云可用于信息检索推荐和导航, 由于用户标注具有时序特征, 为有效揭示用户兴趣动态变化, 提出基于时序演化的用户动态标签云构建方法。【方法】利用心理学中记忆的遗忘和加强特征构建标签的动态权重, 从而建立用户动态标签云以反映用户关注点的变化。【结果】与现有的标签云算法比较, 构建的用户动态标签云算法能够根据用户动态变化的兴趣有效地对标签进行排序, 在用户兴趣标签的预测效果上明显高于其他算法, 并具有更高的推荐准确率。【局限】因为用户兴趣在短时间周期内不会有太大变化, 动态的方法在短时间周期内的预测效果不是很显著, 但在长时间周期表现上更为显著。【结论】基于时序演化的用户动态标签云能有效地把握用户当前的兴趣热点, 提高个性化检索和导航的效果。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型*——以非小细胞肺癌为例
    尹玢璨,辛世超,张晗,赵玉虹
    数据分析与知识发现. 2017, 1 (2): 41-46.   DOI: 10.11925/infotech.2096-3467.2017.02.06
    摘要   HTML   PDF (493KB)

    目的】利用SEER数据库, 找出对非小细胞肺癌患者预后生存的影响因素并预测患者预后生存状态, 指导肿瘤预后评价。【方法】采用单因素统计学方法及Logistic回归分析初步筛选预后相关因素, 利用贝叶斯网络方法构建患者术后生存预测模型, 并与其他三种常见的机器学习分类算法所建模型效能做比较。【结果】最终纳入模型的预后变量共5项, 包括年龄、肿瘤大小、组织学分级、肿瘤分期和受累淋巴结比率。贝叶斯网络所建模型对非小细胞肺癌患者生存状况预测准确率达到72.87%。【局限】SEER数据库内纳入的预后因素有限, 一定程度影响预测效果。【结论】贝叶斯网络可探寻变量间的关系并构建肺癌患者最优预后模型, 辅助医生判断患者预后情况及治疗效果, 优于决策树、支持向量机及人工神经网络三种模式。

    图表 | 参考文献 | 相关文章 | 多维度评价
    一种面向中文本体模式的本体对齐框架*
    王汀,高迎,刘经纬
    数据分析与知识发现. 2017, 1 (2): 47-57.   DOI: 10.11925/infotech.2096-3467.2017.02.07
    摘要   HTML   PDF (678KB)

    目的】现有的本体对齐方法往往忽视中文概念的语序敏感和一词多义的语义特征。本文提出一种基于同义词词林和序列比对算法的大规模中文本体映射模型。【方法】采用基于改进的同义词词林相似度算法计算简单词元的语义相似度。并利用基于改进同义词词林与序列比对相融合的算法度量未登录词之间的语义相似度。【结果】在由DBpedia(中文版)、百度百科和互动百科知识库所构建的测试语料上的关联映射实验结果表明, 该模型的准确率、召回率和综合评价指标平均分别达到约97.5%、87.8%和92.1%。【局限】本模型仅专注于对中文本体概念的元素级相似度度量, 并未考虑本体属性和实例对于概念等价关系的影响因素。【结论】在面向中文网络百科的大规模开放语义数据集上的评测结果证明, 该模型的总体性能明显优于现有算法。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    基于依存关系的中文微博作者性别识别*
    祁瑞华
    数据分析与知识发现. 2017, 1 (2): 58-63.   DOI: 10.11925/infotech.2096-3467.2017.02.08
    摘要   HTML   PDF (608KB)

    目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点, 探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料, 抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure最高。【局限】依存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征集的稀疏性, 与其他对照特征集相比, 能更有效地识别作者性别。

    图表 | 参考文献 | 相关文章 | 多维度评价
    面向食品安全突发事件汉语分词的特征选择及模型优化研究*
    张越,王东波,朱丹浩
    数据分析与知识发现. 2017, 1 (2): 64-72.   DOI: 10.11925/infotech.2096-3467.2017.02.09
    摘要   HTML   PDF (1706KB)

    目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于SVM多特征融合的微博情感多级分类研究*
    杨爽,陈芬
    数据分析与知识发现. 2017, 1 (2): 73-79.   DOI: 10.11925/infotech.2096-3467.2017.02.10
    摘要   HTML   PDF (466KB)

    目的】为更精确地识别网民态度, 监测网络舆情, 提出一种基于SVM多特征融合的情感5级分类方法。【方法】从词性特征、情感特征、句式特征、语义特征4个方面, 提取动词、名词、情感词、否定词等14个特征, 运用SVM方法对微博情感进行5级分类。【结果】实验结果表明, 该方法对情感5级分类的准确率为82.40%, 召回率为81.91%, F值为82.10%。【局限】训练语料的规模有待进一步提高。【结论】该方法在情感5级分类方面取得较好的效果。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    应用论文
    融合内容与用户手势行为的用户画像构建系统设计与实现*
    汪强兵,章成志
    数据分析与知识发现. 2017, 1 (2): 80-86.   DOI: 10.11925/infotech.2096-3467.2017.02.11
    摘要   HTML   PDF (1240KB)

    目的】开发移动端的文献阅读系统, 通过利用在移动端的用户手势行为数据及手势行为对应的内容, 挖掘用户兴趣, 构建用户兴趣画像。【应用背景】融合内容与用户行为的用户画像构建系统能够挖掘用户在阅读文献时的兴趣, 并进行用户画像构建。【方法】以移动平台下的Web阅读系统为工具, 通过收集用户在移动设备上浏览文献产生的用户手势行为(单击、双击、滑动、拖动、放大/缩小等)数据以及与用户手势行为相对应的文本内容, 结合对应文本内容的浏览时间构建用户模型。【结果】用户在使用文献阅读系统时可以发现自己在阅读文献过程中的阅读兴趣, 进行用户兴趣画像构建。【结论】初步研究结果表明使用用户手势行为可以在一定程度上反映用户的阅读兴趣, 并进行用户建模。该研究结论可以提高市场营销和个性化推荐系统的效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    面向网络游记时间特征的情感分析模型*
    程翠琼,徐健
    数据分析与知识发现. 2017, 1 (2): 87-95.   DOI: 10.11925/infotech.2096-3467.2017.02.12
    摘要   HTML   PDF (900KB)

    目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn