数据分析与知识发现

Select

刘雅静, 王衍喜, 郝丹, 周津慧

现代图书情报技术. 2014, 30(3): 1-7. https://doi.org/10.11925/infotech.1003-3513.2014.03.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 通过研究机构知识库数据高效利用方法和手段，在分析中国科学院软件研究所机构知识库（ISCAS-IR）用户使用需求的基础上，设计机构知识库支撑科研服务的方案，为助推机构知识库支撑科研服务提供应用参考。[应用背景] 中国科学院国家科学图书馆于2009年面向全院研究所启动机构知识库建设示范和推广工作，中国科学院软件研究所成为首批示范应用单位，笔者在完成机构科研产出数据存缴的基础上，探索科研支撑服务有效方法和手段，有效地利用IR为研究所科研工作提供支撑服务。[方法] 依据知识服务中ISCAS-IR数据组织需求，设计满足科研支撑服务需求的数据提取与整合方法和知识服务方案，为实现面向中国科学院软件研究所学术科研活动的科研支撑服务提供技术基础。[结果] 高效利用ISCAS-IR中存缴的机构科研产出数据，为科研人员了解本机构的科研学术研究情况提供支撑，解决了长期以来人工统计科研产出问题，为科研管理部门了解研究所科研产出提供支撑。[结论] ISCAS-IR的建设实践，给出一种通过了解机构科研服务需求、设计科研支撑服务方案、发挥IR资源优势、提高机构知识库的应用价值的方法和可供参考的应用实践案例。

Select

机构知识库中作者标识与作品认领机制的研究与实现

刘巍, 祝忠明, 张旺强, 卢利农, 姚晓娜

现代图书情报技术. 2014, 30(3): 8-13. https://doi.org/10.11925/infotech.1003-3513.2014.03.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 在机构知识库中保存的作品信息与作者信息之间建立准确的关联关系。[方法] 用机器的方式匹配出作品与作者之间可能的关联，将关联信息推送给相关作者进行认领，并保存认领结果。[结果] 建立作者别名库，赋予作者本地化的唯一标识，解决因作者姓名变体形式导致的难以建立作者与作品之间准确关联关系的问题。[局限] 在作者信息和作品相关信息采集的过程中人工参与的成分较多；整个功能的实现对数据质量的要求也较高。[结论] 不仅实现作者信息和相关作品信息之间的准确关联，也为将来更多深层次知识服务的开展提供可靠的数据准备。

Select

机构知识库OAI互操作数据同步策略研究

姚晓娜, 祝忠明, 卢利农, 刘巍, 张旺强

现代图书情报技术. 2014, 30(3): 14-18. https://doi.org/10.11925/infotech.1003-3513.2014.03.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 解决在中国科学院联合机构知识库系统建设过程中出现的服务提供方与数据提供方的数据同步问题。[应用背景] 中国科学院联合机构知识库系统基于OAI元数据互操作接口构建而成，服务提供方只有保持与数据提供方的数据一致，才能向用户提供准确有效的数据。[方法] 对现有的OAI接口进行扩展，实现资源集合更新、映射关系更新以及无效数据检测等功能，并自定义新的元数据模式和操作方式。[结果] 扩展后的OAI接口可有效实现机构知识库资源集合及条目的数据同步，支持复杂元数据格式的数据交换和共享。[结论] 本方法切实有效地解决实际问题，并可为类似系统提供参考依据。

Select

建立服务可扩展型机构知识库方法探索——中国农业大学机构知识库构建与服务实践

李晨英, 韩明杰, 洪重阳, 王雁, 许岩青, 程春宁

现代图书情报技术. 2014, 30(3): 19-25. https://doi.org/10.11925/infotech.1003-3513.2014.03.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 针对IR建设中普遍存在的内容不足与利用效率不高的问题进行实践性方法探索。[应用背景] 在国内外多数IR数据量少且用户服务功能不够丰富的背景下，开展中国农业大学机构知识库（CAUIR）内容广泛收集与扩展服务建设。[方法] 基于CAUIR的工作实践，从IR内容建设和服务功能扩展两方面，说明构建服务可扩展型IR的具体技术措施，并用统计数据证明扩展IR服务功能可提高内容的利用率。[结果] CAUIR服务已扩展到13个专题，形成了系列服务。6年来用户登录总量超过1 129万，日均超过5 000。[结论] 实践证明扩展面向普通用户的IR服务功能是提高IR内容利用效率的有效措施。

Select

呈现科研数据知识库：re3data.org注册机制

Heinz Pampel, Paul Vierkant, Frank Scholze, Roland Bertelmann, Maxi Kindling, Jens Klump, Hans-Jürgen Goebelbecker, Jens Gundlach, Peter Schirmbacher, Uwe Dierolf

现代图书情报技术. 2014, 30(3): 26-34. https://doi.org/10.11925/infotech.1003-3513.2014.03.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

科研人员在钻研科研问题与分享科研数据的过程中，需要某种基础设施来确保数据最大程度的获取性、稳定性和可用性。这类基础设施可以统称为科研数据知识库（Research Data Repository，RDR）。自2012年启动的re3data.org项目，主要从事科研数据知识库的登记注册，以及为科研人员、科研资助组织、图书馆和出版商等提供有关异构科研数据知识库的全景概述。截至2013年7月，已有400个科研数据知识库向re3data.org登记，其中288个采用re3data.org的信息图标，以协助科研人员遴选合适的知识库，并且存储与重用他们的数据。这篇论文描绘异构RDR的全景，表述机构的、学科的、跨学科的以及项目专业的RDR类型。深入描述re3data.org的特性，以及这套注册系统如何协助科研人员分辨适合存储和搜索科研数据的知识库。

Select

云图书馆虚拟环境可信验证过程的设计与实现

吴坤, 颉夏青, 吴旭

现代图书情报技术. 2014, 30(3): 35-41. https://doi.org/10.11925/infotech.1003-3513.2014.03.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 通过对云图书馆虚拟环境进行可信验证保证用户资源与服务所在的虚拟环境的可信。[方法] 建立基于可信第三方的验证模型，通过可信第三方分别对用户和云图书馆平台进行可信验证的方法，设计并实现云图书馆虚拟环境的可信验证过程。[结果] 能够以较小的系统开销确保虚拟机请求过程、分配过程以及启动过程的可信，保证云图书馆平台分配给用户的虚拟机是可信的。[局限] 虚拟机使用、虚拟机迁移等过程的可信验证所带来的系统开销，有待进一步实验和验证。[结论] 本研究能够向用户保证其所请求的虚拟机的可信，建立用户与云图书馆平台的信任关系。

Select

时间维度的云服务发展态势研究

王伟军, 鲍丽倩, 刘凯

现代图书情报技术. 2014, 30(3): 42-48. https://doi.org/10.11925/infotech.1003-3513.2014.03.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 借助云服务概念簇数量的变化探究云服务当前的发展状况及其未来趋势。[方法] 逐一抓取近12年Google搜索引擎收录云服务概念簇的词条数，采用时间序列分析法进行研究。[结果] 云服务可分为陡增型、脉冲型和波动型三类。陡增型云服务会继续增长，但增长趋势会减缓；脉冲型云服务出现增长趋势的可能性不大；波动型云服务未来的发展走向不稳定。[局限] 只从时间维度来分析云服务的发展趋势，如果要获取更加可靠的结果，需要结合政治、经济、社会等环境因素共同考量。[结论] 云服务从实验室迈入市场，今后可能向着服务集中化管理方向发展，特定行业会有个性化定制的云服务。

Select

云环境下基于FCA的领域本体协作构建模式初探

颜时彦, 王胜清, 罗云川, 黄浩军

现代图书情报技术. 2014, 30(3): 49-56. https://doi.org/10.11925/infotech.1003-3513.2014.03.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 借助云环境下的技术理念探索基于FCA的领域本体协作构建模式。[方法] 利用云环境下的基于MapReduce框架的技术划分形式背景，局部制造概念格，并结合专家与用户的意见修改完善领域本体。[结果] 成功设计新的云环境下的领域本体构建的协作模式，提高本体构建自动化程度的同时使得多种不同权限的用户和专家参与其中，提高本体构建的效率和质量。[局限] 该协作模式仍处于概念设计阶段，需要云环境下多用户参与的实践，完善协作方案。[结论] 基于FCA的领域本体构建方式可以在云环境下有所扩展，可以在多人多层次的协作中不断改善领域本体。

Select

汉构：面向深层语言处理的语法工程

杨春雷, Dan Flickinger

现代图书情报技术. 2014, 30(3): 57-64. https://doi.org/10.11925/infotech.1003-3513.2014.03.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 开发面向深层语言处理的汉语普通话在线语法（简称汉构）。[应用背景] 汉构是在DELPH-IN环境内，基于语法母体，在LKB平台上开发的可计算汉语语法。它的句法和语义分析的理论框架分别是中心语驱动的短语结构语法和最简递归语义。汉构为进一步开发资源型语法和商用奠定良好基础。[方法] 根据系统的语言学本体研究对语言知识进行形式化描写；汉构的计算实现经历语法定制、汉语MRS测试套件、词库建设、语法规则定义和MRS描写等环节。[结果] 汉构覆盖汉语基本词类和主要语言现象，完全覆盖MRS测试套件。[结论] 汉构是最早的中型可计算汉语语法之一，是形式语法理论和计算语言学领域间开展合作研究的桥梁和有效载体。

Select

面向用户意图的智能搜索引擎框架研究

郑炜, 梁战平, 梁建

现代图书情报技术. 2014, 30(3): 65-72. https://doi.org/10.11925/infotech.1003-3513.2014.03.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 提出一套基于用户搜索意图的智能搜索引擎系统框架理念，并研究核心排序算法。[方法] 基于用户搜索意图从内容存储、内容检索以及内容排名三个方面出发对搜索引擎算法进行重构，并在内容排名算法中综合考虑内容的相关性、可靠性、多样性以及热度等因素。[结果] 实验表明基于意图的智能搜索算法与传统的基于关键字的搜索算法相比返回结果的相关度更高，而且高相关度表现具有较高的稳定性，处于对传统方法的支配地位。[局限] 构建智能搜索引擎是一个庞大的工程，还有诸多技术和工程问题没有深入研究和解决。搜索排序算法还需要进行大量的实验进行验证和改进。[结论] 本研究为构建新一代基于意图的智能搜索引擎奠定基础。

Select

学术论文大纲中关键术语抽取方法研究

何远标, 乐小虬, 张帆

现代图书情报技术. 2014, 30(3): 73-79. https://doi.org/10.11925/infotech.1003-3513.2014.03.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 针对学术论文大纲内容精炼、层次性的特点，研究从中抽取重要且具有实质意义术语的方法。[方法] 结合语言学规则和术语词典从大纲各级标题中识别出候选术语集，然后根据术语间的句法依存关系计算tf-idf，并利用大纲结构量化术语层级特征，最后结合tf-idf与层级特征对候选术语进行排名，选择出关键术语。[结果] 实验证明，该方法的候选术语识别F值达到89.57%，术语选择F值达到36.89%。[局限] 采用的术语抽取规则不完备，且tf-idf计算过程中的权值设置仅使用经验值，导致未能达到最优效果。[结论] 该方法能有效抽取大纲中的关键术语，适用于层级结构中的关键术语抽取。

Select

机器学习在中文期刊论文自动分类研究中的应用

王昊, 叶鹏, 邓三鸿

现代图书情报技术. 2014, 30(3): 80-87. https://doi.org/10.11925/infotech.1003-3513.2014.03.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 在机器学习的计算模式下，利用特征加权和浅层次分类方法可以有效实现期刊论文的中图法分类。[应用背景] 传统的人工分类方式在大数据环境下显得力不从心，而期刊电子化趋势使得自动分类技术能够有效缓解人工分类的压力。[方法] 将机器学习的思想运用到期刊论文的自动分类领域，分析比较支持向量机和BP神经网络算法在期刊论文自动分类中的效果，利用层次分类理念将中图法转化为三层分类体系，将类目号的获取简化为三层分类的实现，基于特征的来源设置特征值的权重。[结果] 分类实验表明，支持向量机算法在大规模稀疏数据环境中较BP神经网络算法更合理，三层体系的分类正确率自顶向下分别达到95.05%、92.89%和89.02%，综合正确率接近80%，多来源的特征权重在论文自动分类中较单一权重具有更好的分类效果。[结论] 研究表明机器学习方法在期刊论文的自动分类方面具有较高的可行性、合理性和有效性，为期刊论文自动分类的实现提出新的思路。

Select

提取核心特征词的惩罚性矩阵分解方法——以共词分析为例

俞仙子, 高英莲, 马春霞, 刘金星

现代图书情报技术. 2014, 30(3): 88-95. https://doi.org/10.11925/infotech.1003-3513.2014.03.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 在共词分析时对高维共词矩阵进行稀疏降维，直观快速地凸显出高维矩阵中的核心特征词。[方法] 提出基于惩罚性矩阵分解（PMD）的文本核心特征词提取方法，选取有关高校图书馆使用社交网络这一主题的文献进行实验，用Matlab R2012a对构建的共词矩阵进行PMD分解降维。[结果] 利用PMD从1 648个特征词中提取出65个核心特征词，不仅大于用主成分分析提取的34个特征词，而且揭示出高校图书馆使用社交网络的研究热点。[局限] 实验中提取的高校图书馆使用社交网络的特征词未能全面涉及，有一定的主观性。[结论] 用PMD方法对高维共词矩阵进行稀疏后，所获核心特征词更容易被理解和解释，也能够表明一些边缘化的主题。

Select

一种带文化嵌入摄动的集群核心企业专利合作能力动态评价方法研究

史丽萍, 苑婧婷, 唐书林

现代图书情报技术. 2014, 30(3): 96-103. https://doi.org/10.11925/infotech.1003-3513.2014.03.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的] 通过考察企业的专利合作数量与其文化嵌入的变化速度之间的关联性，对文化嵌入摄动如何影响集群核心企业专利合作能力进行探讨。[方法] 通过中国专利查询系统获取6家区域性海洋工程装备龙头企业的合作专利数，并结合调查问卷形式获得文化嵌入的相关数据，使用本文所提出的具有速度特征的动态评价模型对企业专利合作能力进行评价。[结果] 本文方法既避免了文化嵌入对专利合作状态的直接影响，又扩大了企业间专利合作能力评价的差异性，传统方法仅能辨别三类排名，本方法可以完全辨别6种排名，提高评价结果的可辨识性。[局限] 影响企业专利合作能力的因素未能全面涉及；数据样本局限于特定行业，有待进一步拓展。[结论] 有利于处理分布畸形和数据离散化的专利合作能力评价工作，促进合作专利计量工作的顺利推进。

选择文件类型/文献管理软件名称

选择包含的内容

2014年, 第30卷, 第3期　
刊出日期：2014-03-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2014年, 第30卷, 第3期 刊出日期：2014-03-25

2014年, 第30卷, 第3期　
刊出日期：2014-03-25