Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2017年, 第1卷, 第9期 刊出日期:2017-09-25   
    选择: 合并摘要
    专家视点
    Is Big Data Analytics Beyond the Reach of Small Companies?
    数据分析与知识发现. 2017, 1 (9): 1-7.   DOI: 10.11925/infotech.2096-3467.2017.0723
    摘要   HTML   PDF (415KB)
    参考文献 | 相关文章 | 多维度评价
    研究论文
    融合词嵌入表示特征的实体关系抽取方法研究*
    张琴,郭红梅,张智雄
    数据分析与知识发现. 2017, 1 (9): 8-15.   DOI: 10.11925/infotech.2096-3467.2017.09.01
    摘要   HTML   PDF (464KB)

    目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算法的准确率达到0.48, 关系抽取效果最佳, Member-Collection(E2,E1)类型关系的F1值达到0.70, 特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。

    图表 | 参考文献 | 相关文章 | 多维度评价
    什么样的评论更容易获得有用性投票*——以亚马逊网站研究为例
    吴江,刘弯弯
    数据分析与知识发现. 2017, 1 (9): 16-27.   DOI: 10.11925/infotech.2096-3467.2017.09.02
    摘要   HTML   PDF (550KB)

    目的】购物网站评论系统中的投票机制有利于帮助消费者筛选出高质量评论。本文以评论有用性投票数为研究对象, 探讨什么样的评论更容易获得有用性投票。【方法】以信息采纳理论和负面偏差理论为基础, 基于亚马逊购物网站中的12 393条手机评论数据, 结合文本分析与零膨胀负二项回归分析方法, 从评论者信度、评论信息质量、评论极性三个方面探究评论有用性投票影响因素。【结果】研究结果表明, 评论者有用性、评论信息量、评论回复数、极端评分、评论文本消极倾向对评论有用性投票数具有积极正向影响。评论者发表评论数、评论者是否确认购买对评论有用性投票数有负向影响。【局限】仅以手机这一搜索型产品为研究对象, 研究结果欠缺普适性。【结论】本文研究成果对于改善电子商务评论排序系统具有借鉴意义。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于标签的商品推荐模型研究*
    涂海丽,唐晓波
    数据分析与知识发现. 2017, 1 (9): 28-39.   DOI: 10.11925/infotech.2096-3467.2017.09.03
    摘要   HTML   PDF (1110KB)

    目的】构建社会化电子商务环境下基于标签的个性化商品推荐模型。【方法】综合考虑用户使用标签的频率和时间因素计算用户的兴趣偏好; 基于标签层次特征和电子商务网站中关于商品特征的检索条件, 构建某一主题商务社区中商品本体; 利用本体规范化用户标签语义, 并对商品进行分类; 寻找含有用户偏好的类簇, 计算该类簇中商品与用户偏好商品的相似度, 将用户未标注过的商品与用户偏好相似度高的商品推荐给用户。【结果】从翻东西网站上随机选取200个活跃用户关于热门商品的标注信息进行分析, 验证该模型的有效性。【局限】在计算用户兴趣偏好时, 只考虑用户使用标签的频率和时间因素, 未考虑其他因素。【结论】该模型相对于利用标签进行协同过滤推荐方法具有较优的效果, 计算时间和空间复杂度更小。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于链接分析法对国内网络直播平台综合影响力的评价研究*
    史昱天,朱庆华,赵宇翔,陈晓威
    数据分析与知识发现. 2017, 1 (9): 40-48.   DOI: 10.11925/infotech.2096-3467.2017.09.04
    摘要   HTML   PDF (490KB)

    目的】探究如何利用链接分析法科学合理地对网络直播平台综合影响力做出客观评价。【方法】借助Google和Alexa工具收集国内20家知名网络直播平台的相关链接数据, 使用改进指标权重计算方法的灰色关联分析法, 对这20家网站的综合影响力进行评价。【结果】获得网络直播平台影响力的综合排名, 并依据此分析国内网络直播平台特征及现状。【局限】能获取全面数据的网络直播平台数量较少, 故选取样本数量有限。【结论】中国当前网络直播平台的整体水平还不高, 本文从链接角度出发, 提出进一步提升平台影响力的方法策略。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于矩阵分解学习的科学合作网络社区
    发现研究*
    施晓华,卢宏涛
    数据分析与知识发现. 2017, 1 (9): 49-56.   DOI: 10.11925/infotech.2096-3467.2017.09.05
    摘要   HTML   PDF (2845KB)

    目的】在科学合作网络的发展及主要社区发现方法的基础上, 提出发现合作网络社区信息的方法。【方法】以情报领域部分相关期刊2012年-2016年发表论文的共著网络为实验数据, 基于贝叶斯对称非负矩阵分解方法, 结合自动相关确定稀疏压缩原理, 实现社区数量的自动获取, 并在分解过程中应用对称矩阵分解原理。【结果】通过与现有方法的比较与分析, 本文方法得到较好的实验结果。【局限】网络数据获取中未引入学者甄别的优化方法。【结论】本文提出的方法能有效解决合作网络社区发现需求。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于突显词博文聚类的官微事件检测方法*
    高永兵,杨贵朋,张娣,马占飞
    数据分析与知识发现. 2017, 1 (9): 57-64.   DOI: 10.11925/infotech.2096-3467.2017.09.06
    摘要   HTML   PDF (961KB)

    目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用Word2Vec机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF和TextRank算法相比较, 本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于微博的意见领袖网情感特征分析*——以“非法疫苗”事件为例
    何跃,朱灿
    数据分析与知识发现. 2017, 1 (9): 65-73.   DOI: 10.11925/infotech.2096-3467.2017.09.07
    摘要   HTML   PDF (1681KB)

    目的】识别意见领袖, 从而研究分析意见领袖网在微博中的作用。【方法】利用两步聚类的方法识别意见领袖, 通过“关注”关系构建意见领袖之间的网络矩阵; 通过对各类用户情感进行分析, 研究意见领袖网在微博中的作用。【结果】研究结果表明: 总体用户的情感主要以消极情感为主, 并且意见领袖网的情感会对普通用户的情感产生影响。【局限】仅针对单个事件进行研究, 并且识别意见领袖时仅采用两步聚类方法。【结论】明星与大V类意见领袖网的积极情感变化对普通用户的积极情感变化影响最大。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于动态情感主题模型的在线评论分析*
    李慧,胡云凤
    数据分析与知识发现. 2017, 1 (9): 74-82.   DOI: 10.11925/infotech.2096-3467.2017.09.08
    摘要   HTML   PDF (1197KB)

    目的】对在线评论进行分析, 揭示评论文本主题的内容和情感分布变化规律。【方法】使用融入先验信息的SSTM模型获得评论文档的情感分布, 以文档、文档情感分布和词项为可视变量, 提出DSTM模型, 并估算情感主题分布和主题词项分布。【结果】将采集的评论数据集按时间片划分进行建模, 实验得到主题的内容和情感随时间的变化趋势。【局限】未考虑不同主题之间的关联关系, 建模结果可能存在一定误差。【结论】融合时间外部特征的DSTM模型, 能够有效地对在线评论进行主题演化分析。

    图表 | 参考文献 | 相关文章 | 多维度评价
    应用论文
    基于权重的Apriori算法在文本统计特征提取方法中的应用*
    李昌兵,庞崇鹏,李美平
    数据分析与知识发现. 2017, 1 (9): 83-89.   DOI: 10.11925/infotech.2096-3467.2017.09.09
    摘要   HTML   PDF (622KB)

    目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用TF-IDF和方差选择的统计方法在众多初步提取出来的特征中进行选择, 设置阈值后将各自提取出来的特征取交进行过滤, 得到产品特征集合, 根据基于矩阵和权重改进的Apriori算法产生频繁项集, 设定不同阈值得到最优特征集合, 实现对用户评论中产品特征的自动提取。【结果】以手机评论文本为例, 从中抽取手机类的产品特征, 根据人工标注的183个特征和算法识别出来的特征, 查准率P为72.44%, 查全率R为77.59%, 综合值F为74.93%。【局限】查准率偏低, 存在人工标注特征错误的情况。【结论】实验结果表明, 在用统计方法和改进后的Apriori算法进行特征提取时可以提高各性能指标。

    图表 | 参考文献 | 相关文章 | 多维度评价
    CSpace机构知识库影音资源支持能力扩展研究与实践*
    吴志强,祝忠明,姚晓娜,王思丽
    数据分析与知识发现. 2017, 1 (9): 90-96.   DOI: 10.11925/infotech.2096-3467.2017.09.10
    摘要   HTML   PDF (1486KB)

    目的】提出机构知识库影音支持能力扩展方向, 实现CSpace机构知识库影音支持能力扩展。【应用背景】影音知识资源在机构产出中所占比例不断增长, 扩展机构知识库影音支持能力可更好地揭示、发现影音知识资源, 挖掘和利用其学术研究价值和潜力。【方法】分析用户的应用需求和国内外机构知识库影音支持服务的发展趋势, 构建机构知识库影音资源支持功能扩展框架, 选择其中的关键技术和方法搭建实验平台, 探索将其应用于CSpace系统的可行性。【结果】实现了影音格式转换、视频场景分析和具有场景导航功能的播放器。【结论】影音转码稳定性和效率较高, 其他影音支持功能离实用还存在一定距离, 将影音格式转换技术应用于CSpace机构知识库系统中, 能够扩展机构知识库的影音支持服务。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn