数据分析与知识发现

Select

“社会舆情分析与决策支持的理论和方法研究”专题序

王曰芬

现代图书情报技术. 2016, 32(7-8): 1-2. https://doi.org/10.11925/infotech.1003-3513.2016.07.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

Select

大数据环境下社会舆情分析与决策支持的研究视角和关键问题

岑咏华,王曰芬

现代图书情报技术. 2016, 32(7-8): 3-11. https://doi.org/10.11925/infotech.1003-3513.2016.07.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】分析大数据背景下的需求, 探索社会舆情分析与决策支持的理论依据与重点研究问题。【方法】综合运用图书情报、新闻传播、公共管理、计算机、心理学、系统动力学、复杂网络等理论与方法, 基于社会现实考察与业界实践分析, 总结凝练研究观点。【结果】提出“以‘知识论’、‘决策论’与‘系统论’相结合”等6个视角引导研究设计与布局研究内容, 并侧重解决社会舆情传播对政府决策影响的理论依据探寻等5个关键问题。【结论】大数据给社会舆情分析与政府决策支持带来新的机遇, 迫切需要提出与采纳新的研究视角解决关键问题。

Select

基于突发主题词和凝聚式层次聚类的微博突发事件检测研究

丁晟春,龚思兰,李红梅

现代图书情报技术. 2016, 32(7-8): 12-20. https://doi.org/10.11925/infotech.1003-3513.2016.07.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实时、准确、高效地检测出海量微博中的突发事件, 为舆情应急管理提供重要的决策信息支持。【方法】引入参照时间窗机制, 设计词频、文档频率、话题标签(Hashtag)、词频增长率4类特征的选择与计算方法, 基于动态阈值实现对突发主题词的抽取。在此基础上, 将微博文本表示为突发主题词的特征向量, 使用凝聚式层次聚类算法实现了突发事件的检测。【结果】将实验结果结合实例进行分析, 突发事件检测达到80%的准确率, 验证该方法的可行性和有效性。【局限】由于语料数据和研究范围的限制, 还未实现对所检测突发事件的自动描述, 对网民情感、事件间语义关系等要素的分析及考量也存在一定欠缺。【结论】本研究突破以往相关研究中文本内容质量、文本形式、突发特征抽取结果的局限, 提升微博突发事件检测的效率。

Select

基于BDI-Agent模型的突发事件网络舆情应急响应建模研究

吴鹏,金贝贝,强韶华

现代图书情报技术. 2016, 32(7-8): 32-41. https://doi.org/10.11925/infotech.1003-3513.2016.07.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】基于“信念-愿望-意图”(BDI)模型分析网民在突发事件网络舆情中行为决策的动因和发展规律, 引导网民情绪, 建立复杂网络情境下可推理、可预测的应急响应计算模型。【方法】基于“信念-愿望-意图”模型建立起网络舆情演变过程中各类主体(网民、政府、媒体)的多Agent交互模型, 对网民的心智状态的转换过程建模仿真, 从而揭示网络舆情演变的内在动因, 支持应急响应策略的科学制定。本文以突发事件网络舆情中网民情感倾向性为核心, 面向网民、政府、媒体的交互, 设计BDI-Agent概念模型, 包括Agent语境和推理规则设计; 在此基础上设计实证模型, 包括Agent属性、推理规则和交互规则设计, 并结合实际案例进行验证。【结果】结合典型突发事件网络舆情案例进行实证研究, 验证本文提出的多Agent模型的科学性。【局限】该模型需要更多同类事件的对比和优化。【结论】可以基于BDI模型将复杂的网络舆情映射为一个可以规约推理的计算模型, 并为突发事件网络舆情演变趋势的预测和应急策略的制定提供一套可参考的实证模型。

Select

基于被引科学知识主题突变的突破性创新识别

张金柱,张晓林

现代图书情报技术. 2016, 32(7-8): 42-50. https://doi.org/10.11925/infotech.1003-3513.2016.07.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在与基础研究密切相关的技术领域, 需要从专利信息中的被引科学知识主题内容出发识别突破性创新。【方法】抽取专利科学引文的关键词和学科分类表示被引科学知识; 在关键词共现网络和学科分类组合中识别被引科学知识的主题; 提出基于关键词和学科分类的主题突变程度计算方法, 遴选突变程度高的主题对应作为突破性创新发生的技术主题, 对突破性创新进行识别。【结果】在纳米电子学领域识别出已被证实为突破性创新的纳米电路相关主题, 即纳米导线、碳纳米管、可计算电路等纳米电路材料和制备主题, 并且是材料科学、化学、光学、生物学和应用物理等多学科交叉融会的结果, 验证了该方法的有效性。【局限】被引科学知识抽取、预处理和匹配准确率需要提高, 方法通用性还需在其他领域进行验证。【结论】该方法是基于专利信息识别突破性创新的重要完善和补充, 可扩展应用到其他与基础研究密切相关的技术领域中识别突破性创新。

Select

评论簇在网络舆论中的情感倾向代表性研究

杨小平,马奇凤,余力,莫雨婷,吴佳楠,张悦

现代图书情报技术. 2016, 32(7-8): 51-59. https://doi.org/10.11925/infotech.1003-3513.2016.07.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】验证评论簇在网络舆论中具有情感倾向代表性作用。【方法】提出基于社会网络分析的评论簇对象情感倾向性分析模型。针对网络新闻事件, 以新闻的用户评论(评论总集)为语料数据, 对语料数据进行结构化处理和分析, 借助评论主体的形式化关系, 建立具有网络节点和拓扑连接关系的知识图谱, 寻找最优评论簇。以评论簇的评论主体及其对应的评论对象为主, 对评论簇内的核心人物及其评论进行语义分析, 计算得到评论簇情感倾向, 并与对应新闻的评论总集情感倾向作对比。【结果】实验结果表明, 评论簇和评论总集中的情感强度趋于一致, 新闻的评论簇对新闻具有较好的情感倾向代表性, 并能将网络舆情对象情感挖掘算法的性能提高58%。【局限】由于本文的评论簇对象情感倾向性分析模型在情感特征词识别和抽取方法上使用不够完善, 导致少量中文分词和词性标注错误、语法依存关系错误, 且未将程度词考虑在内。【结论】评论簇在网络舆论中具有情感倾向代表性作用, 可提高网络舆情对象情感计算的性能, 可灵活有效地降低舆情分析的时间和空间复杂度。

Select

新兴技术发现模型研究

任智军,乔晓东,张江涛

现代图书情报技术. 2016, 32(7-8): 60-69. https://doi.org/10.11925/infotech.1003-3513.2016.07.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在论文和专利中识别并发现待选新兴技术。【方法】采用LDA模型寻找技术主题, 使用新兴技术相似度识别待选新兴技术。利用电动汽车数据进行实验分析。【结果】实验结果表明, 该方法区别于以往的新兴技术识别方法, 自动识别出电动汽车领域的25个新兴技术。【局限】没有进行专家打分实验, 模型分析结果未与人工结果进行对比。【结论】新兴技术发现模型可高效发现新兴技术, 有效减少专家阅读文献的数量。

Select

基于复杂网络的虚拟社区创新知识传播机制研究

叶腾,韩丽川,邢春晓,张妍

现代图书情报技术. 2016, 32(7-8): 70-77. https://doi.org/10.11925/infotech.1003-3513.2016.07.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过构建知识传播理论模型, 探究虚拟社区中知识传播效果的内在影响机制。【方法】基于虚拟社区GitHub的实际数据, 利用社会网络分析法和回归分析法, 实证研究社区成员的位置特性、区域特性和创新认可度对知识传播速度和传播范围的影响。【结果】位置中心性通过改变潜在受众数量影响知识传播范围。创新认可度通过影响传播概率影响知识传播速度。区域密集度与知识传播速度和传播范围呈负相关关系。【局限】研究结果仅基于一个大型虚拟社区, 结论的普遍性有待进一步证实。【结论】对虚拟社区的管理策略以及创新成员在虚拟社区中的知识分享策略和创新策略提出建议。

Select

面向微博话题的“主题+观点”词条抽取算法研究

姚兆旭,马静

现代图书情报技术. 2016, 32(7-8): 78-86. https://doi.org/10.11925/infotech.1003-3513.2016.07.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】自动抽取微博话题信息, 从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中, 结合改进的TF-IDF算法, 构建主题特征词向量; 基于特征词向量中特征词之间的相关度, 自动抽取主题词汇链; 引入情感词典, 抽取主题观点, 无监督构建“主题+观点”词条。【结果】使用爬虫工具抽取2014年6月-2015年6月期间4个特定热门微博话题事件的微博共24 598条, 抽取“主题+观点”词条, 平均准确率达到80.3%, 召回率为76.7%。【局限】数据量依旧较小, 主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。

Select

主题标引文献的语义关系发现研究

李晓瑛,夏光辉,李丹亚

现代图书情报技术. 2016, 32(7-8): 87-93. https://doi.org/10.11925/infotech.1003-3513.2016.07.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用文献的主题标引结果, 发现其中隐含的重要语义关系。【方法】基于MEDLINE数据库中的生物医学主题标引文献, 提出一种语义关系发现算法, 涉及主题词组配原则、主题标引规则以及基于加权标引词和关系出现频次的优化方法等多个环节。【结果】收集疾病与症状方面的实验数据对算法进行实验验证, 并结合领域专家审核, 结果表明本文所发现语义关系的准确率可达到95%以上。【局限】本文所研究的语义关系发现算法仅适用于具有主题标引结果的文献。【结论】从大规模生物医学主题标引文献中发现中英文两种语言的语义关系是有效可行的, 对其他领域语义关系的发现具有极高的借鉴意义。

Select

来源指标与被引指标关系及对期刊评价的影响——以JCR数学期刊为例

俞立平

现代图书情报技术. 2016, 32(7-8): 94-100. https://doi.org/10.11925/infotech.1003-3513.2016.07.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】分析学术期刊来源指标与目标指标之间的关系以及由此导致的对期刊评价的影响。【方法】以JCR 2015年数学期刊为例, 采用典型相关分析对期刊来源指标与影响力指标的关系进行研究。【结果】实验结果表明: 特征因子是期刊影响力的主要指标; 期刊来源指标与影响力指标相关关系显著, 以特征因子为主的影响力指标与载文量的相关系数最高, 其次是引用半衰期, 最后是文献选出率; 总被引频次、被引半衰期、影响因子、影响因子百分位对特征因子的贡献较大, 而其他诸如他引影响因子、5年影响因子、即年指标的贡献较小; 影响力指标比来源指标包含更多信息量。【局限】来源指标与影响力指标的关系尚需进一步检验。【结论】从期刊多属性评价角度, 影响力指标的权重应大于来源指标的权重; 在影响力指标中, 有必要增加特征因子分值与标准特征因子的权重, 并合理分配总被引频次、被引半衰期、影响因子、影响因子百分位的权重, 另一方面要适当降低他引影响因子、5年影响因子、即年指标的权重。

Select

融合领域专家信任与相似度的协同过滤推荐算法研究

谭学清,张磊,黄翠翠,罗琳

现代图书情报技术. 2016, 32(7-8): 101-109. https://doi.org/10.11925/infotech.1003-3513.2016.07.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用领域专家信任和相似度相结合的优势, 弥补传统协同过滤推荐算法在推荐准确度以及挖掘长尾商品方面存在的不足。【方法】选取MovieLens中稀疏度为0.9605的数据集, 由评分记录较多的1 102个用户对2 920部电影的评分记录构成, 利用分阶段实验法求得最优专家用户数量及推荐权重系数α值, 并结合对比分析法对算法的性能进行评测。【结果】实验结果表明, 本算法的推荐结果准确率和覆盖率均受到专家用户数量的影响, 且当推荐权重系数为0.6时推荐准确度明显优于传统算法, 同时专家用户比例由2%上升至20%时, 覆盖率上升了0.21, 说明算法在一定程度上显著提高了推荐系统挖掘长尾商品的能力。【局限】未考虑到不同领域类别之间可能存在的相关性。【结论】该算法能够有效地克服数据稀疏性和冷启动问题, 显著提高推荐系统的推荐质量和准确度。

Select

移动数字图书馆资源的情境感知个性化推荐方法研究

洪亮,钱晨,樊星

现代图书情报技术. 2016, 32(7-8): 110-119. https://doi.org/10.11925/infotech.1003-3513.2016.07.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】结合移动数字图书馆的资源布局及推送特征, 为其设计一种基于情境感知的个性化资源推荐方式。【方法】基于相似用户有相似选择的考虑, 引入角色的概念模拟用户兴趣选择, 设计一种有效的WSSQ算法构建用户信任网络, 由此给出改进的情境感知推荐方法, 并在扩展的Epinion数据集上进行仿真实验。【结果】通过实验证明了本方法是可行的, 且在MAE、RMSE等指标下均优于其他推荐方法, 体现出良好的推荐精度。【局限】在用户样本足够大时会面临情境和角色稀疏的问题。【结论】本研究为移动数字图书馆资源推荐提供了一种思路, 有利于其推荐系统的改进和完善。

Select

标准文献知识服务系统设计与实现

丁恒,陆伟

现代图书情报技术. 2016, 32(7-8): 120-128. https://doi.org/10.11925/infotech.1003-3513.2016.07.15

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】建设面向知识层次的标准文献服务系统, 推进标准文献信息服务的知识化进程。【应用背景】标准文献知识服务系统能够对标准文献中的知识单元进行语义抽取, 依据标准文献知识之间的关联关系进行有效组织, 并为用户提供面向知识层次的标准文献信息服务。【方法】采用光符识别、自然语言处理、信息可视化等技术实现标准文献的语义组织、知识抽取、本体构建、知识图谱、本体检索等功能。【结果】用户利用标准文献知识服务系统, 能够获得面向知识层次的标准文献信息服务, 包括标准知识图谱和基于本体的标准知识检索服务。【结论】标准文献知识服务系统能够改善用户体验, 满足用户的标准文献知识需求。

Select

基于HPSG的汉语词库和语法规则系统构建

杨春雷

现代图书情报技术. 2016, 32(7-8): 129-136. https://doi.org/10.11925/infotech.1003-3513.2016.07.16

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探讨开发汉语可计算语法的理论基础和实践经验。【方法】以HPSG理论为句法框架, 以MRS为语义描写手段, 以“汉语普通话在线语法”(简称“汉构”)的开发过程为例, 重点研究通过构建词库和规则层级, 对汉语特殊结构进行计算实现。【结果】“汉构”的开发证明, HPSG非常适合作为汉语可计算语法开发的理论框架。【局限】“汉构”仍在继续开发中, 其覆盖率暂未接受大规模自然语料的检测。【结论】“汉构”可作为沟通形式语言学和计算语言学的桥梁和开发大规模资源型语法的基础。

Select

共主题网络方法及应用

钮亮

现代图书情报技术. 2016, 32(7-8): 137-146. https://doi.org/10.11925/infotech.1003-3513.2016.07.17

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过构建共主题网络, 对主题之间的关系进行分析, 优化主题包含的词项。【方法】将“文档-主题”二分图依照加权投影规则生成共主题网络, 使用介数中心性和主题概率结合的方法测度共主题网络中重点主题, 通过GN算法对主题网络进行社区分割, 使用相关度方法优化主题词项。【结果】将共主题网络与基于JSD的K-means方法进行比较发现, 两者在三种主题数(最优主题数28和随机主观主题数20, 30)测试下产生的聚类数目都相同, 聚类内容的一致程度分别达到100%、95%、87%。【局限】其他社区分割方法共主题网络未能全面涉及。【结论】共主题网络照顾到了高维数据的需要, 能够探查出文档中哪些主题是重要主题, 哪些主题联系紧密。

Select

高校图书馆微信服务平台的设计与实现——以浙江工业大学图书馆为例

佘静涛

现代图书情报技术. 2016, 32(7-8): 147-153. https://doi.org/10.11925/infotech.1003-3513.2016.07.18

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过设计和开发微信服务平台, 为图书馆用户提供方便快捷的个性化服务, 同时也为系统管理员提供便利。【应用背景】目前多数高校图书馆微信服务平台中自定义菜单生成和改动都需要修改程序源代码, 且没有网络系统管理功能。【方法】通过创新性地利用Java反射机制, 使用微信公众平台的API接口, 利用Java编程语言和Hibernate数据库框架, 设计和开发适用于高校图书馆的微信服务平台。【结果】通过该平台, 拥有权限的管理员不仅可以管理网络系统, 而且可以实时地改变微信自定义菜单的名称、个数、排列顺序、响应动作类型和绑定的函数。【结论】通过使用和测试表明本应用能够极大地提高用户满意度和微信管理员的工作效率。

选择文件类型/文献管理软件名称

选择包含的内容

2016年, 第32卷, 第7-8期　
刊出日期：2016-08-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2016年, 第32卷, 第7-8期 刊出日期：2016-08-25

2016年, 第32卷, 第7-8期　
刊出日期：2016-08-25