Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2014年, 第30卷, 第1期 刊出日期:2014-01-25   
    选择: 合并摘要
    编者按
    用高水平学术规范保障论文学术质量
    张晓林,彭希珺
    现代图书情报技术. 2014, 30 (1): 1-3.   DOI: 10.11925/infotech.1003-3513.2014.01.01
    摘要   HTML   PDF (381KB)
    参考文献 | 相关文章 | 多维度评价
    数字图书馆
    Digital Curation和Digital Preservation之概念辨析*
    张智雄,吴振新,刘建华,郭红梅
    现代图书情报技术. 2014, 30 (1): 4-13.   DOI: 10.11925/infotech.1003-3513.2014.01.02
    摘要   HTML   PDF (454KB)
    【目的】对Digital Curation和Digital Preservation这两个相关概念进行辨析。【文献范围】以历史上与Digital Curation和Digital Preservation相关的重要文献和重要报告为基础,并调研分析DCC、JISC、ARL等主要机构对两个概念的各种定义。【方法】基于两个概念形成的历史,分析两个概念产生和发展的深层原因;基于当前主要研究团体和个人对两个概念的多个定义,分析两个概念的不同;进一步从8个方面入手,多角度对这两个概念的不同点进行对比分析。【结果】Digital Curation和Digital Preservation虽然都可用于数字保存和管理,但它们的确是两个不同的概念,在很多方面有较大的差别。【局限】尚需对Digital Curation和Digital Preservation所包括的具体工作内容进行较为细致的对比分析。【结论】Digital Curation和Digital Preservation是两个不同的概念,但二者互补,图书馆应当采用一种更为积极主动的方式来推进数字保存和管理。
    参考文献 | 相关文章 | 多维度评价
    国外协同信息检索系统比较分析*
    吴丹,余文婷
    现代图书情报技术. 2014, 30 (1): 14-23.   DOI: 10.11925/infotech.1003-3513.2014.01.03
    摘要   HTML   PDF (498KB)
    【目的】协同信息检索系统是协同信息检索的工具,本文为协同信息检索研究及系统开发提供参考。【方法】采用典型案例研究法和比较分析法,分析Annotate!、Cerchiamo、CoSearch和SearchTogether等4个国外典型协同信息检索系统在框架结构、支撑技术、实现功能和性能评价方面的异同。【结果】显性协同信息检索系统支持同步检索,采用用户界面调节,多为C/S结构,采用即时信息和自动分工技术,功能较丰富;而隐性协同信息检索系统支持异步检索,采用深层算法调节,多为多层次结构,采用数据或代理技术,功能较单一。【局限】由于协同信息检索系统目前还处于实验开发阶段,未能对各系统进行体验式研究。【结论】协同信息检索系统开发没有固定模式,需根据用户功能需求进行选择,并采用相应支持技术。
    参考文献 | 相关文章 | 多维度评价
    面向文本挖掘的植物生长发育实体识别研究*
    汪润,何琳,王东波,黄水清,范远标
    现代图书情报技术. 2014, 30 (1): 24-27.   DOI: 10.11925/infotech.1003-3513.2014.01.04
    摘要   HTML   PDF (471KB)
    【目的】 研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取。【应用背景】PDSE从本质上来说是一种命名实体。目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中。【方法】采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试。【结果】实验表明本文提出的混合策略能取得较高的准确率和召回率。【结论】本研究对生物学文本抽取具有一定的借鉴意义。
    参考文献 | 相关文章 | 多维度评价
    知识组织与知识管理
    基于特征翻译和潜在语义标引的跨语言文本聚类实验分析*
    邓三鸿,万接喜,王昊,刘喜文
    现代图书情报技术. 2014, 30 (1): 28-35.   DOI: 10.11925/infotech.1003-3513.2014.01.05
    摘要   HTML   PDF (639KB)
    【目的】通过多组实验来分析跨语言文本聚类中的基于特征翻译和潜在语义标引性能、注意事项和发展方向。【方法】从有关双语站点选取2 736篇中英文对齐的双语新闻语料,以基于特征翻译和潜在语义标引这两种方法分别进行文本聚类实验,并进行各自召回率、准确率、F值的对比。【结果】基于特征翻译的方法处理相对简单,能明显提升多语言文本的聚类效果;基于潜在语义标引的方法由于方法自身在时间和空间复杂度以及其他固有缺陷,最终结果差强人意。【局限】样本丰富度有待进一步扩展,期待在高性能计算环境下对LSI方法进行更全面的实验。【结论】基于特征翻译的方法需进一步提高翻译系统的性能,而LSI方法则需要解决计算复杂度、K值选取等问题。
    参考文献 | 相关文章 | 多维度评价
    用户查询意图的层次化识别方法*
    唐静笑,吕学强,柳成洋,李涵
    现代图书情报技术. 2014, 30 (1): 36-42.   DOI: 10.11925/infotech.1003-3513.2014.01.06
    摘要   HTML   PDF (450KB)
    【目的】向搜索引擎提交的查询均有其潜在的查询意图,准确识别查询意图可以提高查询的效率。【方法】针对有明显意图的查询,采用滑动窗口寻找最大公共子串的策略抽取用户的意图模板,然后用模板匹配的方法识别用户查询意图。对无明显意图的查询,采用多特征融合的分类方法进行识别。【结果】实验结果表明,采用层次化识别方法和单独使用分类器方法相比,识别查询意图的实验结果正确率得到19.04% 的提升。【局限】可获得的意图模板是有限的,因此显式意图查询的识别存在局限性。大规模数据情况下,模式匹配及机器学习算法的运算量很大,需要进一步优化算法。【结论】实验证明该方法在Web意图识别中是有效的,对意图识别率的提高有积极意义。
    参考文献 | 相关文章 | 多维度评价
    领域本体术语抽取研究*
    汤青,吕学强,李卓,施水才,
    现代图书情报技术. 2014, 30 (1): 43-50.   DOI: 10.11925/infotech.1003-3513.2014.01.07
    摘要   HTML   PDF (608KB)
    【目的】尽可能多地抽取多字词本体术语,以保证本体构建的质量。【方法】提出基于部件扩展的本体术语抽取方法。利用部件的领域聚合性和词性特征,采用领域词频比较的方法抽取部件;考虑术语长度、术语词性构成以及术语内部结合度等因素,设计合理的扩展规则对部件扩展以形成候选术语;利用上下文关联信息、语境信息从候选术语集中筛选出本体术语。【结果】利用该方法在IT领域实验数据集上进行测试,实验结果准确率为83.5%,召回率为87%,准确率相比Baseline方法要高出2.5个百分点。【局限】部件抽取方法需要借助于平衡语料库,部件的质量直接影响术语抽取效果。【结论】实验结果表明该方法是有效的,对本体学习、本体构建具有积极意义。
    参考文献 | 相关文章 | 多维度评价
    科技文献术语的自动抽取技术研究与分析*
    曾文,徐硕,张运良,翟娟华
    现代图书情报技术. 2014, 30 (1): 51-55.   DOI: 10.11925/infotech.1003-3513.2014.01.08
    摘要   HTML   PDF (454KB)
    【目的】为提高科技文献信息的组织和检索效率,从解决科技文献术语抽取这一基础研究问题入手,提出一种基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法。【方法】核心技术是结合科技文献术语的语言特点,以及术语在文献中的词语组合强度和出现位置等统计计算信息,构建科技文献术语自动抽取算法。【结果】实验测试结果表明,获取的科技文献术语词语的平均准确率可以达到51.2%。【局限】在统计计算算法和数据处理方面,还需进一步改进算法和提高数据质量。【结论】提出的基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法是有效的。
    参考文献 | 相关文章 | 多维度评价
    情报分析与研究
    媒体即社区?信息系统领域基于文献的研究主题分析*
    赵宇翔,彭希羡
    现代图书情报技术. 2014, 30 (1): 56-65.   DOI: 10.11925/infotech.1003-3513.2014.01.09
    摘要   HTML   PDF (1359KB)
    【目的】通过对IS期刊中社会化媒体和在线社区的研究主题进行比较分析验证媒体即社区的假设。【文献范围】以ISI Web of Science为数据来源,结合国际信息系统协会(AIS)提供的期刊列表,选择45本信息系统领域的核心期刊作为研究对象。【方法】通过关键词分析、高频词分析、共词聚类以及可视化方法,深入探索社会化媒体和在线社区研究的主题分布和随时间的演化规律。【结果】社会化媒体与在线社区两个概念由原先较为平行的关系发展成目前交织的状态,且由于其连接的平滑性和重叠度使得两者在内涵上和外延上愈发趋于统一。【结论】从文献层面部分论证媒体即社区这一假设,并进一步提出其理论价值。
    参考文献 | 相关文章 | 多维度评价
    基于专利文本数据的技术实力评价方法*
    韩红旗,桂婕,徐硕,刘玉琴
    现代图书情报技术. 2014, 30 (1): 66-71.   DOI: 10.11925/infotech.1003-3513.2014.01.10
    摘要   HTML   PDF (538KB)
    【目的】提出不依靠专利引文数据、利用专利文本数据评价企业技术实力的方法。【方法】该方法综合采用专利授权数量指标、专利增长率指标、技术中心性指标和专利最小价值指标来评估技术实力。这4类指标分别从技术规模、技术增长性、技术重要性和技术价值性等不同侧面反映一个企业的技术能力。【结果】通过CII和TII指标对比实验,验证引文分析给公开早的专利较高评价的问题;通过TS指标和TSQGIV对比实验,验证提出的技术实力评价方法的有效性。【局限】数据处理中没有对机构名称进行规范化处理,实验结果可能存在误差。【结论】相比于其他评价技术实力的方法,本研究可以在没有引文数据的情况下对企业的技术实力进行评价。
    参考文献 | 相关文章 | 多维度评价
    用户查询日志中的中文机构名识别*
    关晓炟,吕学强,李卓,郑略省,
    现代图书情报技术. 2014, 30 (1): 72-78.   DOI: 10.11925/infotech.1003-3513.2014.01.11
    摘要   HTML   PDF (458KB)
    【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
    参考文献 | 相关文章 | 多维度评价
    民族志决策树方法在学术博客用户行为中的研究*——以科学网博客为例
    徐孝娟,赵宇翔,朱庆华
    现代图书情报技术. 2014, 30 (1): 79-86.   DOI: 10.11925/infotech.1003-3513.2014.01.12
    摘要   HTML   PDF (643KB)
    【目的】以科学网博客为例,全面且辩证地研究目前用户使用及停止使用科学网的行为要素。【方法】将民族志决策树方法引入学术博客用户使用行为研究中,建立科学网用户使用及停止使用的决策行为模型。【结果】用户使用学术博客的原因包括内容的真实性、价值性及权威性、结识科研学者以及分享观点等,不使用的原因包括内容的深度及粒度、内容的时效性、新颖性不足以及不熟悉学术博客、使用的风险性和其他即时类社会化媒体可替代。【局限】抽样方法上以方便抽样为主,存在一定的局限,后续工作中有待改善。【结论】本研究可以有效地补充“放弃”角度的用户行为研究,较有效地发现用户使用和停止使用原因,且模型从决策学角度具有一定的预测力。
    参考文献 | 相关文章 | 多维度评价
    应用实践
    开发模式下图书馆微信公众平台服务的设计与实现*
    张蓓,窦天芳,张成昱,李洁芳
    现代图书情报技术. 2014, 30 (1): 87-91.   DOI: 10.11925/infotech.1003-3513.2014.01.13
    摘要   HTML   PDF (1425KB)
    【目的】通过设计和开发微信公众平台服务,扩展清华大学图书馆的服务渠道,提升读者体验。【应用背景】移动互联网的兴起,促使微信成为读者关注度较高的平台,以清华大学为例,近8成新生使用微信应用。【方法】基于微信公众平台的开发模式,利用其提供的消息接收和回复接口,将图书馆热点消息、馆藏书目系统等查询功能嵌入微信应用。【结果】读者在社交网络环境里,通过指令互动即可便捷地使用到图书馆的服务和资源。【结论】本应用可以丰富图书馆的服务形式,拉近图书馆与读者的距离。
    参考文献 | 相关文章 | 多维度评价
    论文引文检索与分析自动化系统的构建
    张素芳,宋虎
    现代图书情报技术. 2014, 30 (1): 92-96.   DOI: 10.11925/infotech.1003-3513.2014.01.14
    摘要   HTML   PDF (1162KB)
    【目的】探讨一个论文引文检索与分析自动化系统的构建,包括其基本原理、架构、功能模块、具体实现和使用效果。【应用背景】基于引文检索与分析过程中人工操作过多、用户需求各异的特点设计,系统可供图书馆工作人员、教学科研人员和科研管理人员使用。【方法】采用Perl语言,在Linux环境下进行开发。【结果】实现引文检索结果的自动获取、引文数据的统计分析、引用清单的格式化生成和他引标准的多样化选择等功能。【结论】能够提高检索人员的工作效率。
    参考文献 | 相关文章 | 多维度评价
    二维码技术在图书馆查询机中的应用与实现
    李善杰
    现代图书情报技术. 2014, 30 (1): 97-101.   DOI: 10.11925/infotech.1003-3513.2014.01.15
    摘要   HTML   PDF (773KB)
    【目的】在查询机管理程序上显示所查询书目信息的二维码。【应用背景】针对SIRSI的OPAC模块中不提供所查询书目信息二维码显示功能,为提高读者在查询机上的图书检索效率,以查询机管理程序为承载媒介,实现二维码显示功能。【方法】借助前期开发的查询机管理程序,以HtmlAgilityPack和QrCode.Net开源组件为实现手段,完成二维码所需书目数据的抽取和显示。【结果】在查询机上,读者浏览书目详情页面时,查询机管理程序上同时显示读者所查询书目信息的二维码。【结论】在应用部署后,读者在查询机上的图书检索效率较之前得到明显提升。
    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn