数据分析与知识发现

Select

机构知识库的互操作需求和互操作规范框架

梁娜, 张晓林

现代图书情报技术. 2013, 29(9): 1-7. https://doi.org/10.11925/infotech.1003-3513.2013.09.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从知识管理、知识服务和科研教育三个不同角度分析机构知识库的应用环境,考虑技术互操作、语义互操作、管理互操作和多个相关利益方需求,构建相应的互操作应用需求框架,系统分析已有和正在制定的基础互操作规范、扩展互操作规范和管理互操作规范实例。

Select

面向知识服务的知识组织工具：现状与未来

谢靖, 钱爱兵, 韩普, 苏新宁

现代图书情报技术. 2013, 29(9): 8-14. https://doi.org/10.11925/infotech.1003-3513.2013.09.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从知识服务角度出发,对知识组织工具进行探讨,将其划分为基础知识与知识架构类工具、知识关系建立类工具、知识处理及展现类工具。从这三个分类的角度,对现有的知识组织工具分别进行探讨。基础知识与知识架构类工具主要通过系统化知识组织提供知识点推送服务,充当语义级的知识库角色;知识关系建立类工具则通过对知识点的关联建立提供深层次的知识关联服务,在此基础上通过与基础知识及知识架构类工具相结合,提供相应的知识推理服务;知识处理及展现类工具是知识抽取、关系建立、呈现等工作中所涉及的实用工具,这些工具以用户需求为中心完成对知识的重组。最后,对知识组织工具的未来进行展望,提出多维融合、网络化、分布式、个性化、动态化是其发展方向。

Select

基于MapReduce的书目数据关联匹配研究

虞为, 陈俊鹏

现代图书情报技术. 2013, 29(9): 15-22. https://doi.org/10.11925/infotech.1003-3513.2013.09.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一个基于MapReduce的书目数据关联匹配架构,通过参引MODS本体将MARC格式的书目数据转换成关联数据格式。再通过对书目数据和书目数据间的关联匹配,以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联,使关联的书目数据成为关联开放数据社区中的一部分,为图书馆的知识发现和语义检索服务提供有效的语义数据支持。

Select

树转录翻译模型解码优化

石崇德, 乔晓东, 王惠临

现代图书情报技术. 2013, 29(9): 23-29. https://doi.org/10.11925/infotech.1003-3513.2013.09.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对树转录翻译模型中的规则二元化和解码算法进行深入研究,通过四分化的二元化转换方法减少词汇化同步转录规则的中间项目,通过实时判断中间项目有效性的RR-CKY算法来避免冗余项目生成。实验证明,这两种方法能有效减少解码过程中的中间项目,提高机器翻译解码效率,在一定程度上提高机器翻译效果。

Select

词语位置加权TextRank的关键词抽取研究

夏天

现代图书情报技术. 2013, 29(9): 30-34. https://doi.org/10.11925/infotech.1003-3513.2013.09.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。

Select

基于句法结构分析的同义词识别方法研究

于娟, 尹积栋, 费庶

现代图书情报技术. 2013, 29(9): 35-40. https://doi.org/10.11925/infotech.1003-3513.2013.09.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对同义词识别方法中因重心后移造成的语义相似度计算偏差问题,提出一种基于句法结构分析的同义词识别方法。首先采用句法结构分析方法处理需要做同义词识别的词(或短语),然后基于同义词词林来计算词(或短语)间的相似度。该方法等价地分析词(或短语)中的各个原子词,从而消除重心后移方法所造成的识别偏差。实验证明,该同义词识别方法性能良好,具有较高的可行性,可以为文本挖掘和语义检索领域提供新思路。

Select

基于语义指纹的中文文本快速去重

李纲, 毛进, 陈璟浩

现代图书情报技术. 2013, 29(9): 41-47. https://doi.org/10.11925/infotech.1003-3513.2013.09.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。

Select

基于文体学的中文UGC作者身份识别研究

吕英杰, 范静, 刘景方

现代图书情报技术. 2013, 29(9): 48-53. https://doi.org/10.11925/infotech.1003-3513.2013.09.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

网络的开放性和虚拟性给发布信息的作者身份识别造成很大困难,因此探索性地提出通过对网上的用户生成内容(UGC)的写作特点进行分析来识别其作者身份的方法。在传统的文体学研究基础上,结合中文UGC的特点,提取出词汇特征、句法特征、结构特征和内容特征等4类能有效识别不同作者写作风格的特征,然后运用文本分类算法对作者身份进行有效识别。通过实验表明在BBS论坛文本和博客文本这两种典型的中文UGC环境中,本研究采用的方法均得到很好的识别效果。

Select

基于有效词频的改进C-value自动术语抽取方法

熊李艳, 谭龙, 钟茂生

现代图书情报技术. 2013, 29(9): 54-59. https://doi.org/10.11925/infotech.1003-3513.2013.09.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来自动抽取术语,并结合术语簇识别与挖掘,改善低频术语抽取性能。通过计算机领域术语抽取实验,表明本文提出的改进方法(EC-value方法)能更有效地衡量术语的术语性,改善低频术语抽取性能。

Select

在线中文商品评论可信度研究

孟美任, 丁晟春

现代图书情报技术. 2013, 29(9): 60-66. https://doi.org/10.11925/infotech.1003-3513.2013.09.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

对在线中文商品评论中可信度较低的评论信息进行过滤,为消费者提供对制定购买决策有帮助的评论。在深入分析在线中文商品评论特点的基础上,结合相关研究成果,通过问卷调查进行可信度影响因素的实证分析。根据实证结果,选取内容完整性、情感平衡性、评论时效性以及发布者身份明确性4类特征,采用CRFs模型进行评论可信度4级分类,并进行特征组合实验,得到最佳特征组合。实验效果显著,分类模型正确率均在75%以上。该研究成果可以用于改善现有的“人工效用评价”方式,为在线评论的优化过滤提供一种新的方法与思路。

Select

中国购物网站网络信息生态链研究

李北伟, 徐越, 单既民, 魏昌龙, 张鑫琦, 富金鑫

现代图书情报技术. 2013, 29(9): 67-73. https://doi.org/10.11925/infotech.1003-3513.2013.09.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以我国购物网站网络信息生态链为研究对象,建立相应的评价指标体系,选取国内最具代表性的20家购物网站作为实例,通过因子分析和聚类分析,把握我国购物网站网络信息生态链发展的分布情况及特点,并根据各购物网站发展情况的相似性进行分类。最后,针对发展中存在的问题给出相应的建议与对策。

Select

融入社会关系的微博排名策略研究

唐晓波, 房小可

现代图书情报技术. 2013, 29(9): 74-81. https://doi.org/10.11925/infotech.1003-3513.2013.09.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

社会化媒体的出现,使得搜索环境发生重大变化。针对当前微博搜索排名的不足,在分析微博社会关系的基础上,综合可测量的参数指标,提出融入社会关系的微博排名策略,即在传统的PageRank排名算法中增加社会强度,综合考虑用户知名度、信息知名度、信息质量、时间因素等其他参数指标。实验结果显示,取各参数指标的平均值(AVG)能获得排名精度最高的效果,优于微博传统排名算法并且能获得更多社会关系。

Select

人名属性知识挖掘及其在查询分类中的应用

张梅, 段建勇, 徐骥超

现代图书情报技术. 2013, 29(9): 82-87. https://doi.org/10.11925/infotech.1003-3513.2013.09.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

网络日志中存在大量的命名实体类查询,而其中人名查询占到近半的比例。提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。实验结果表明该知识库对查询串中的人名实体能进行有效分类。

Select

面向用户生成内容的短文本聚类算法研究

赵辉, 刘怀亮

现代图书情报技术. 2013, 29(9): 88-92. https://doi.org/10.11925/infotech.1003-3513.2013.09.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对用户生成内容中短文本特征语义描述能力弱和K-means算法对初始聚类中心选值的敏感性问题,通过维基百科概念、链接结构和类别体系信息对短文本进行特征扩展以补充其语义信息。进而以文本间语义关系为基础构建文本集加权复杂网络,利用节点综合特性来选取初始聚类中心,并结合K-means算法对网络节点进行社团划分以达到短文本聚类的目的。实验结果表明,该方法能够有效提高短文本聚类效果。

Select

利用交互历史进行P2P知识共享社区发现的研究

高海艳, 窦永香, 齐艺兰

现代图书情报技术. 2013, 29(9): 93-98. https://doi.org/10.11925/infotech.1003-3513.2013.09.15

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种利用用户交互历史实现P2P社区发现的方法。研究知识共享过程中交互历史的产生,根据交互历史形成用户交互网络,计算用户相似度;对用户进行聚类分析发现P2P环境下自组织形成的知识共享社区。最后通过实验验证该方法的可行性和有效性。

选择文件类型/文献管理软件名称

选择包含的内容

2013年, 第29卷, 第9期　
刊出日期：2013-09-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2013年, 第29卷, 第9期 刊出日期：2013-09-25

2013年, 第29卷, 第9期　
刊出日期：2013-09-25