Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2015年, 第31卷, 第10期 刊出日期:2015-10-25   
    选择: 合并摘要
    专题
    多语言高质量社会化标签生成与聚类
    章成志
    现代图书情报技术. 2015, 31 (10): 1-1.   DOI: 10.11925/infotech.1003-3513.2015.10.01
    摘要   HTML   PDF (182KB)
    相关文章 | 多维度评价
    社会化标签质量自动评估研究
    章成志, 李蕾
    现代图书情报技术. 2015, 31 (10): 2-12.   DOI: 10.11925/infotech.1003-3513.2015.10.02
    摘要   HTML   PDF (581KB)

    [目的] 对用户标注的大量标签实现自动评估, 自动选择或推荐高质量的标签, 提高社会化标签应用效果。[方法] 现有的标签质量评估研究割裂了标签的内容属性与社会化属性, 没有结合标签多方面属性进行综合评估。因此本文以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。[结果] 结果显示, 结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。[局限] 仅使用科学网博文的标签数据, 其社会化功能还不够完善, 一些社会化属性并不能有效地提高社会化标签质量自动分类效果。[结论] 该工作为进一步提升社会化标签的组织与应用质量打下基础。

    参考文献 | 相关文章 | 多维度评价
    科研用户博文关键词标注行为差异研究——以科学网博客为例
    张颖怡, 章成志, 池雪花, 李蕾
    现代图书情报技术. 2015, 31 (10): 13-21.   DOI: 10.11925/infotech.1003-3513.2015.10.03
    摘要   HTML   PDF (404KB)

    [目的] 为优化标注系统提供依据, 同时丰富网络环境下用户标注行为的研究。[应用背景] 不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面。[方法] 从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。[结果] 分析结果发现, 不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。[结论] 学术博客可以根据不同类型用户的标注行为差异,对博文标注系统进行优化。

    参考文献 | 相关文章 | 多维度评价
    区分标签质量的机器生成标签聚类研究
    章成志, 顾晓雪
    现代图书情报技术. 2015, 31 (10): 22-29.   DOI: 10.11925/infotech.1003-3513.2015.10.04
    摘要   HTML   PDF (761KB)

    [目的] 常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响, 本文旨在分析不同质量的机器生成标签的聚类效果差异, 并提出融合标签质量的标签聚类算法优化建议。[方法] 首先, 抓取Engadet中英文博客数据, 对其进行数据预处理得到候选标签, 抽取标签社会化特征与内容特征并进行权重计算, 采用两种标签质量区分策略, 得到不同质量的标签集合; 然后, 对不同质量的标签集合进行相似度计算, 使用AP算法进行聚类, 分析比较它们的聚类结果。[结果] 实验结果表明, 对于中英文标签, Top5标签聚类结果要优于Top5-10标签聚类结果, 加权社会化属性标签聚类结果优于不加权社会标签聚类结果。[局限] 区分标签质量的方法比较单一, 缺乏评价标签质量的有效方法。[结论] 高质量的机器生成标签聚类结果比低质量的标签聚类结果更好, 对标签的社会化属性的加权能够提高机器生成标签的聚类效果, 且社会化属性可以作为区分标签质量的特征之一。

    参考文献 | 相关文章 | 多维度评价
    标注内容与用户属性结合的标签聚类研究
    顾晓雪, 章成志
    现代图书情报技术. 2015, 31 (10): 30-39.   DOI: 10.11925/infotech.1003-3513.2015.10.05
    摘要   HTML   PDF (611KB)

    [目的] 研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。[方法] 采用科学网博客数据, 对其进行特征抽取、模型构建和相似度计算, 利用线性函数和Sigmod函数进行相似度加权, 并使用AP聚类算法进行标签聚类。[结果] 在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升, Sigmod加权表现最优; 在系统分类体系下, 两者结合均不如标注内容结果表现优秀。[局限] 选择的数据量较小, 评估标签聚类的分类体系不够完善, AP聚类算法不适用于大数据的处理。[结论] 两种特征的结合在部分情况下能够提高聚类效果, 标签聚类中应更加关注标签的内容特征。

    参考文献 | 相关文章 | 多维度评价
    Hashtag研究综述
    邵健, 章成志, 李蕾
    现代图书情报技术. 2015, 31 (10): 40-49.   DOI: 10.11925/infotech.1003-3513.2015.10.06
    摘要   HTML   PDF (514KB)

    [目的] 分析当前Hashtag研究思路和技术, 归纳和总结当前Hashtag研究中所存在的问题, 并提炼Hashtag研究的理论意义与实际意义, 为更深入的Hashtag研究提供参考。[文献范围] 以2007年至2015年的国际会议和国内外期刊的60篇文献作为主要研究对象。[方法] 调研Hashtag研究及其应用的相关文献, 对Hashtag研究中各环节涉及的方法进行分析和总结。[结果] Hashtag在用户使用、Hashtag挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。[结论] 未来应侧重于Hashtag的理论研究, 如用户标注Hashtag的动机、影响Hashtag标注的因素等。在实际应用中, 结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。

    参考文献 | 相关文章 | 多维度评价
    研究论文
    考虑信任与权威影响的社会网络-舆论协同演化的研究
    朱侯
    现代图书情报技术. 2015, 31 (10): 50-57.   DOI: 10.11925/infotech.1003-3513.2015.10.07
    摘要   HTML   PDF (3052KB)

    [目的] 分析在信任和权威两种心理机制作用下, 舆论与社会网络结构的协同演化规律。[方法] 采用相对协议模型表达舆论交互机制, 并设计信任和权威的心理计算模型, 通过计算机模拟信任和权威影响下舆论和网络结构的协同演化过程。[结果] 动态网络的情景下, 舆论的一致性不如静态网络, 个体之间更容易因观点偏好的差异形成非正式的局部团体; 个体间的信任值呈现幂律分布, 但是权威个体并不一定拥有高信任关系。[局限] 认知心理的可计算模型以参数传递的方式嵌入舆论模型, 二者的协同方式有待进一步改进。[结论] 信任与权威对舆论与社会网络间的协同演化有显著的影响, 控制权威个体的观点偏好, 能在一定程度上改变群体的舆论发展方向。

    参考文献 | 相关文章 | 多维度评价
    负面事件中的品牌网络口碑溢出效应研究——以“圆通夺命快递”事件为例
    何跃, 宋灵犀, 齐丽云
    现代图书情报技术. 2015, 31 (10): 58-64.   DOI: 10.11925/infotech.1003-3513.2015.10.08
    摘要   HTML   PDF (684KB)

    [目的] 研究网络口碑对企业品牌的溢出效应, 为企业及时调整公关策略应对风险提供依据。[方法] 利用信息熵建立负面事件中网络口碑溢出效应评价指标体系, 以“圆通夺命快递”事件为例, 对网络口碑溢出效应方向与强度进行对比分析。[结果] 实证结果表明, 用户在整个事件发展过程中具有强烈的负面情感倾向; 事件对竞争品牌的溢出效应强度和方向各有不同, 负面溢出效应强度高于正面溢出效应; 负面溢出效应的持续时间比正面溢出效应长。[局限] 未研究事件对其他行业相关品牌的溢出效应。[结论] 提出的网络口碑溢出效应指标体系可用于监测网络口碑溢出效应方向和强度。

    参考文献 | 相关文章 | 多维度评价
    一种基于主成分分析和随机森林的刷客识别方法
    张李义, 张皎
    现代图书情报技术. 2015, 31 (10): 65-71.   DOI: 10.11925/infotech.1003-3513.2015.10.09
    摘要   HTML   PDF (539KB)

    [目的] 针对刷客识别的指标维数较高, 识别的准确率和效率较低的问题, 提出新的识别模型, 提高刷客的识别准确率和效率。[方法] 采用主成分分析法对用户指标进行降维, 并运用随机森林算法识别刷客。为了反映该模型在刷客识别方面的优越性, 分别建立基于K近邻判断分析、支持向量机理论的识别模型, 用相同的数据针对不同模型进行训练, 比较不同模型的识别分类准确率和效率。[结果] 实验结果表明, 基于主成分分析和随机森林理论的刷客识别模型识别的准确率为88.0%, 识别时间为3分钟。[局限] 刷客数据主要来源于第三方刷单平台, 不能全面反映所有刷客类型。[结论] 基于主成分分析和随机森林的刷客识别模型对刷客识别具有较高的准确率和较优的效率, 可以为电子商务平台识别刷单交易提供参考。

    参考文献 | 相关文章 | 多维度评价
    社会网络三元结构中关注影响力研究——以学生关系网络为例
    吴江, 张劲帆
    现代图书情报技术. 2015, 31 (10): 72-80.   DOI: 10.11925/infotech.1003-3513.2015.10.10
    摘要   HTML   PDF (837KB)

    [目的] 研究线下关系网络中不同三元结构对关系形成中关注影响力的作用。[方法] 通过对221名学生在不同时间的问卷调查, 得到一个学生关系网络的动态演化过程, 进而统计分析不同三元结构对关系形成的关注影响力的作用程度。[结果] 使用线下数据得到的分析结果与之前线上数据研究结果一致, 即三元结构中存在互惠性、传递性以及反关系, 更容易形成新的关系, 即关注影响力越大。[局限] 不能完全对关系网络之外产生的影响进行控制。[结论] 线上线下关系形成规律一致, 本文研究成果具有一定的商业价值。

    参考文献 | 相关文章 | 多维度评价
    自动标注中文专利的引文信息
    姜春涛
    现代图书情报技术. 2015, 31 (10): 81-87.   DOI: 10.11925/infotech.1003-3513.2015.10.11
    摘要   HTML   PDF (431KB)

    [目的] 自动标注嵌入中文专利文本中的专利、标准、学术论文、其他专著4类引用信息。[方法] 对于专利、标准和其他专著的引用, 应用模式匹配的方法标注; 对于学术论文的引用, 应用由两阶段构成的机器学习方法标注, 自动检测含有引用的句子, 并从中自动提取6类文献特征信息。[结果] 10层交叉验证的结果表明: 专利引用标注的精确度和查全度均为100%, 标准引用标注的精确度和查全度分别达到92%和94%, 而其他专著引用标注的精确度和查全度分别达到80%和71%; 标注学术论文引用的精确度和查全度在阶段一分别为95.7%和96.0%, 阶段二分别为95.3%和94.9%。[局限] 模式匹配方法需要人工分析大量的专利文件, 训练数据规模相对较小。[结论] 运用模式匹配方法标注专利、标准引用的性能高于92%; 运用机器学习方法标注学术论文引用的平均性能达到95%。

    参考文献 | 相关文章 | 多维度评价
    应用论文
    新能源汽车领域中文术语抽取方法
    何宇, 吕学强, 徐丽萍
    现代图书情报技术. 2015, 31 (10): 88-94.   DOI: 10.11925/infotech.1003-3513.2015.10.12
    摘要   HTML   PDF (426KB)

    [目的] 为提高新能源汽车领域中文术语抽取结果的准确率和召回率, 提出一种适合该领域的术语抽取方法。[方法] 在总结前人工作基础上, 提出利用条件随机场模型作为抽取模型, 选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。[结果] 实验结果正确率为93.12%, 召回率为90.47%。正确率比Baseline方法提高7.73%。[局限] 该方法只提高较短术语抽取结果的正确率。[结论] 依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。

    参考文献 | 相关文章 | 多维度评价
    科技知识组织体系开放引擎系统的设计与实现
    王颖, 张智雄, 李传席, 刘毅, 汤怡洁, 周子健, 钱力, 付鸿鹄
    现代图书情报技术. 2015, 31 (10): 95-101.   DOI: 10.11925/infotech.1003-3513.2015.10.13
    摘要   HTML   PDF (1866KB)

    [目的] 为实现科技知识组织体系(STKOS)的共享和利用。[应用背景] 构建知识组织体系有机存储与访问的引擎系统是实现知识组织体系有效利用的前提条件。[方法] 构建支持STKOS各类元素检索、浏览、关联、导航的语义存储与索引体系、语义查询与推理内核以及STKOS API, 并对外提供开放查询与推理接口。[结果] 该引擎系统支持STKOS发布服务平台建设以及STKOS在第三方检索服务系统的应用。[结论] 通过STKOS开放引擎系统, 科技文献信息机构和研究人员能够方便有效地利用STKOS。

    参考文献 | 相关文章 | 多维度评价
    利用Apache Mahout部署个性化图书推荐服务
    刘丹
    现代图书情报技术. 2015, 31 (10): 102-108.   DOI: 10.11925/infotech.1003-3513.2015.10.14
    摘要   HTML   PDF (966KB)

    [目的] 通过提供个性化图书推荐, 丰富图书资源发现途径, 增进读者对馆藏资源的了解, 促进馆藏借阅, 应对图书外借量下滑问题。[方法] 利用Apache Mahout, 通过规范化借阅历史数据, 采用布尔型基于用户的协同过滤推荐算法, 使用对数最大似然相似度计算用户相似性, 生成个性化图书推荐, 并嵌入OPAC读者借阅账户页面。[结果] 在OPAC中嵌入个性化图书推荐列表, 基于shell脚本每10天自动更新。对于没有生成推荐的用户呈现上月10本热门图书。[局限] 缺乏图书评分, 存在数据稀疏性问题, 未能使用基于评分预测的推荐算法。[结论] 系统投入运行后受到读者的关注与好评, 促发了读者借阅行为, 有7.5%的读者点击查看了推荐, 约3.1%的读者借阅了推荐图书。

    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn