数据分析与知识发现

Select

刘畅, 张璐

现代图书情报技术. 2015, 31(9): 1-8. https://doi.org/10.11925/infotech.1003-3513.2015.09.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]分析不同情境(有无时间限制、两种搜索任务)如何影响用户搜索行为和体验。[方法]采用用户实验法, 共计40名大学生被试参与实验。他们在有时间限制和没有时间限制的情况下分别完成两种类型的搜索任务: 事实型和理解型任务。[结果]实验发现时间限制会减少用户搜索时长、写文档时长, 且会降低用户搜集的信息量和新知识的增长程度; 但时间限制会加速用户整理信息的速度。同时, 研究也发现搜索任务对搜索体验的影响。搜索任务类型对用户搜索和写文档的时间比例及文档字数产生的速度均没有显著影响。但是无时间限制时, 被试会花费更多的时间完成理解型任务, 但在两类任务中搜集的信息量和新知识增长量却没有显著差异。在有时间限制时, 相比事实型任务, 被试在理解型任务搜集更多的信息量却认为其获取的新知识量较少。[局限]在实验室环境中模拟搜索时间限制, 可能与真实情景下的时间限制存在差异, 因此研究结论推广有一定的局限性。[结论]本研究说明时间限制会影响用户搜索策略, 以及用户对不同搜索任务付出的认知努力, 对更全面地理解时间和搜索任务两个情境因素对搜索行为的影响有重要意义。

Select

融合主题模型及多时间节点函数的用户兴趣预测研究

桂思思, 陆伟, 黄诗豪, 周鹏程

现代图书情报技术. 2015, 31(9): 9-16. https://doi.org/10.11925/infotech.1003-3513.2015.09.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]针对用户兴趣随时间推移不断变化的问题, 利用主题模型及时间节点函数预测用户兴趣。[方法]使用主题模型生成用户兴趣, 针对用户的所有兴趣, 分别利用多时间节点函数对每个兴趣的每次出现进行加权, 用以预测用户兴趣在下一个时间节点的分布情况。[结果]在Sogou搜索日志上, 与基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型进行对比实验, 余弦相似度及KL(Kullback-Leibler)距离均表明本文方法能较准确地预测用户兴趣。[局限]仅在Sogou搜索日志上进行实验测试, 还需在其他数据集上进一步检验。[结论]充分考虑用户历史数据中每一个时间点可更准确地对用户兴趣进行预测。

Select

基于领域专家和商品特征概念树的在线商品评论深刻性度量

王忠群, 皇苏斌, 修宇, 张义

现代图书情报技术. 2015, 31(9): 17-25. https://doi.org/10.11925/infotech.1003-3513.2015.09.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]解决单纯使用评论长度衡量在线商品评论深刻性的问题。[方法]提出一种在线商品评论深刻性度量模型。在分析消费者制定购买决策所需信息本质的基础上, 定义评论深刻性概念, 并引入商品特征概念树。依据领域专家发表商品评论的特点以及评论中商品特征在商品特征概念树中的分布性, 建立商品评论深刻性度量评价模型。[结果]通过实证研究证实深刻性度量模型与现有的评论有效性模型相一致, 表明该模型的可行性。[局限]未涉及消费者对商品使用场景的描述, 缺少对体验型商品的评论深刻性度量研究。[结论]在线商品评论的深刻性模型能够比较准确地评价商品评论的深度。

Select

汉语组块分析在产品特征提取中的应用研究

杜思奇, 李红莲, 吕学强

现代图书情报技术. 2015, 31(9): 26-30. https://doi.org/10.11925/infotech.1003-3513.2015.09.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]解决用户评论文本中的产品特征提取问题, 尤其是名词性短语的识别问题。[方法]利用汉语组块分析进行产品特征提取, 根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤, 得到产品特征集合, 从而实现对用户评论中产品特征的自动提取。[结果]为验证该方法的有效性, 以汽车评论文本为例, 从中提取汽车类产品的特征, 平均召回率达到76.89%, 平均准确率达到84.03%。[局限]该方法的召回率较低, 存在名词块识别错误的问题。[结论]实验结果表明引入汉语组块分析可以准确识别名词性短语, 提高产品特征提取的准确率。

Select

文献关键词链接标引方法研究

许德山, 李辉, 张运良

现代图书情报技术. 2015, 31(9): 31-37. https://doi.org/10.11925/infotech.1003-3513.2015.09.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]以本体管理与服务平台为基础, 利用三元组获取和自然语言处理技术实现中文科技文献的自动标引。[方法]通过Web Services接口将本体知识库和词汇资源集成到标注模块中, 利用词典匹配和分词组合方法分别获取文献中的领域词和未登录词, 并与本体知识库中的三元组建立链接, 形成领域概念关系网络。[结果]通过语料测试, 系统能以86篇/秒的较快速度进行文献标引和词汇链接, 并达到65%的全面率和69%的准确率。[局限]词典加载后未做索引, 匹配计算耗时过多, 空格、断行等噪声数据对文本的分词处理和词性判断产生影响。[结论]数据清洗流程和关键词筛选算法改善后, 可以进一步提高标引效率, 为深度挖掘文本提供支撑。

Select

一种引入间接信任关系的改进协同过滤推荐算法

吴应良, 姚怀栋, 李成安

现代图书情报技术. 2015, 31(9): 38-45. https://doi.org/10.11925/infotech.1003-3513.2015.09.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]解决传统协同过滤推荐算法中由于数据稀疏性等原因而导致的推荐质量恶化问题, 需要对协同过滤推荐算法的推荐机制进行改进优化。[方法]利用社会网络分析中的凝聚子群分析技术挖掘隐含在信任网络中的间接信任关系, 与直接信任加权融合成综合信任度, 并将其融入用户相似度计算中。[结果]实验结果显示, 信任关系中间接信任不容忽视, 当间接信任以35%的比例与直接信任融合时, 推荐效果比仅引入直接信任关系有进一步提升。[局限]在考虑信任网络中的间接信任时, 忽略了用户之间多中介节点的间接信任情况对推荐精度的影响。[结论]引入间接信任关系的软集成可以提高协同过滤算法的推荐准确性。

Select

利用粒子群和模糊综合评判的模糊分类方法

殷希红, 乔晓东, 张运良, 李国双

现代图书情报技术. 2015, 31(9): 46-51. https://doi.org/10.11925/infotech.1003-3513.2015.09.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]解决传统分类存在硬性划分和部分分类方法只能处理离散型数据的问题。[方法]利用模糊综合评价方法实现对具有连续属性样本的模糊分类, 得到样本对于类别的软化分。划分过程中使用连续属性离散化方法对属性区间进行划分, 使用粒子群算法获取各属性的最优权重分配, 最终结果为样本对各个类别的隶属度。[结果]可以有效地实现对样本类别的软化分, 并且达到较高的准确率。[局限]对于属性值过于集中的属性不易进行区间划分。[结论]基于粒子群和模糊综合评判的模糊分类方法是有效可行的。

Select

面向单篇文献引文网络的主题来源与走向追踪

秦晓慧, 乐小虬

现代图书情报技术. 2015, 31(9): 52-59. https://doi.org/10.11925/infotech.1003-3513.2015.09.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]从单篇文献入手, 在其引文网络中追踪研究主题的来源与走向。[方法]首先, 利用领域本体识别单篇文献中的主题; 其次, 筛选与主题相关的二级参考文献、参考文献、引证文献、二级引证文献, 构建面向单篇文献的引文网络; 然后, 对引文网络进行增量聚类处理, 形成主题的来源与走向演化图。[结果]充分揭示文献主题来源或走向中继承、分化、合并的结构变化及各阶段的内容变化。[局限]引文网络构建时文献的筛选条件有待深入研究; 主题识别未考虑领域本体中词汇收录不完备问题。[结论]本研究对单篇文献主题的来源与走向进行有效的追踪, 能够较好地揭示文献主题的来龙去脉。

Select

利用LeaderRank识别有影响力的作者

邓启平, 王小梅

现代图书情报技术. 2015, 31(9): 60-67. https://doi.org/10.11925/infotech.1003-3513.2015.09.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]识别研究领域内有影响力的作者。[方法]将LeaderRank用于合作网络测度作者影响力, 通过不同的加权算法探讨合作次数和被引频次对重要作者排序的影响, 在此基础上整合两个指标提出CW_LR算法, 从合作和引用两个维度识别有影响力的作者。[结果]CW_LR算法与被引频次有相关性, 但与被引频次或其他几种加权方法相比, 识别出有影响力的作者与业界公认的更为一致。[局限]只在“信息计量学”领域进行实证, 后续将该方法扩展到其他领域进一步验证其有效性。[结论]同时考虑合作关系强度和引用影响力, 从合作和引用两个维度能更准确地识别出有影响力的作者。

Select

合著网络加权模式下科研团队的发现与评价研究

任妮, 周建农

现代图书情报技术. 2015, 31(9): 68-75. https://doi.org/10.11925/infotech.1003-3513.2015.09.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]通过加权的合著网络关系研究, 发现、分析和评价某一机构或学科领域的科研团队情况。[方法]利用合著次数、合著人数、作者排名、被引频次等要素构建一种综合性的合著网络加权模型, 并借助社会网络分析方法进行科研团队发现和评价的实证研究。[结果]利用该模型发现的虚拟科研团队和评价结果与实际科研团队的调研结果相符。且该方法能够综合多种影响因素, 客观评价科研团队的结构组成和影响力情况。[局限]为确保得到现实中科研团队的详细情况以验证该模型的研究结论, 选择笔者所在的科研机构作为评价对象, 使得实证研究的范围较小;且数据类型覆盖面存在局限性。[结论]该方法适用于某一范围内科研团队发现、结构关系分析及建设情况评价, 有助于快速熟悉团队, 为团队的发展完善提供依据。

Select

构建STKOS术语发布与共享服务平台

付鸿鹄, 张智雄, 刘建华, 钱力, 王颖

现代图书情报技术. 2015, 31(9): 76-81. https://doi.org/10.11925/infotech.1003-3513.2015.09.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]设计并实现STKOS术语发布与共享服务系统。[应用背景]作为一个超级词表, 科技知识组织体系(STKOS)需要提供给用户使用从而推进知识服务, 促进知识共享, 为此需通过一个共享服务平台对其进行发布。[方法]在对国际上相关项目和系统进行调研的基础上, 结合STKOS的特点和应用需求, 设计系统的功能框架, 并对系统实现中的关键问题包括应用场景、数据交换格式、数据结构、可视化、多版本管理等进行分析, 完成系统的整体建设。[结果]在千万量级数据场景下, 实现STKOS术语发布与共享服务系统平台。[结论]本系统支持STKOS数据的管理、发布, 支持对知识体系内容的揭示, 为用户提供对知识组织体系的浏览、检索和个性化定制下载。

Select

互联网络电视多媒体文档格式设计与实现

敦文杰, 孙一钢, 朱先忠

现代图书情报技术. 2015, 31(9): 82-89. https://doi.org/10.11925/infotech.1003-3513.2015.09.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]提高图书馆互联网络电视多媒体资源制作效率和通用性, 改善用户体验。[应用背景]互联网络电视是图书馆新媒体服务的重要方式之一, 制定适合图书馆服务需求的多媒体文档格式规范, 有助于解决资源制作和发布效率低下等问题, 并提高资源的通用性。[方法]结合互联网络电视多媒体内容的制作、发布与展示需求, 制定基于XML的简易多媒体文档格式规范ZDS, 并开发工具实现ZDS文档的自动化批量转换与发布。[结果]ZDS文档能够实现馆藏多媒体素材的有序组织与封装, 并在互联网络电视终端上正确解析和展示。[结论]该模式有利于规范图书馆互联网络电视资源建设流程, 促进资源的交换与共享, 提高工作效率。

Select

WebSocket在图书馆移动信息服务中的应用

陈诗琴, 李文江

现代图书情报技术. 2015, 31(9): 90-96. https://doi.org/10.11925/infotech.1003-3513.2015.09.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]扩展图书馆移动信息服务渠道, 提高响应速度, 改善读者体验。[应用背景]在不同系统平台的移动终端应用, 实现图书馆信息实时异步传输。[方法]利用WebSocket技术, 面向客户端发送查询指令、服务器解析查询指令、图书馆信息查询模块和信息回复客户端等过程进行设计。[结果]读者点击客户端菜单, 可便捷获取图书馆服务信息。[结论]数据传输效率高, 实现跨平台运行, 有利于图书馆信息服务项目的拓展。

Select

图书馆数据中心基础架构部署自动化系统

郑海山

现代图书情报技术. 2015, 31(9): 97-101. https://doi.org/10.11925/infotech.1003-3513.2015.09.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]解决高校图书馆数据中心在服务器数量膨胀下的自动化部署问题。[应用背景]高校图书馆数据中心承担的任务越来越重,服务器数量急剧攀升,自研任务增多,人工管理已无法适应。[方法]引入自动化理念,对数据中心的基础架构配置全部使用自动化脚本部署。引入Vagrant工具使得开发环境和生产环境一致。[结果]解决服务器和虚拟机的操作系统依赖组件自动化部署的问题, 以及开发和生产环境不一致的问题。运维人员工作量减少,提高开发效率。[结论]应用自动化运维理念和方法后,图书馆数据中心对内管理更加清晰化、规范化、自动化。

选择文件类型/文献管理软件名称

选择包含的内容

2015年, 第31卷, 第9期　
刊出日期：2015-09-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2015年, 第31卷, 第9期 刊出日期：2015-09-25

2015年, 第31卷, 第9期　
刊出日期：2015-09-25