[目的] 支持开放获取论文从多个出版社向多个机构知识库自动推送转发。[方法] 分析归纳论文自存储对作者的挑战和推送服务对出版社的挑战, 分析多个出版社对多个机构知识库的推送转发服务需求。[结果] 提出推送转发服务系统iSwitch的概念, 提出该系统接收管理、转发管理、数据管理等功能模块及其具体任务, 提出iSwitch设计的标准化要求和运行的合作管理要求。[结论] 开放获取论文推送转发服务系统从出版社自动接收论文, 识别论文作者、作者机构及资助机构, 并自动推送到相应的机构知识库, 有效保障机构知识成果的保存与传播。
[目的] 为开放获取论文推送转发服务系统iSwitch提出具体的技术要求。[方法] 根据推送方、转发方和接收方的需求进行工作流分析、重点环节技术需求分析和可参考标准规范分析。[结果] 提出iSwitch技术流程及其技术功能要求, 提出从出版社到iSwitch的必备推送信息、从iSwitch到接收方的必备转发信息以及应采用的标准规范。在此基础上, 提出对出版社的推送服务要求和对系统开发的具体技术要求。[结论] iSwitch推送转发流程中论文及其元数据的描述、封装、传输等应遵循相应的标准规范。
[目的] 对可视分析学的最新进展做全面梳理, 探讨其在图书情报学领域的深入应用, 以期为后续研究提供参考。[方法] 研究比较可视分析学的若干特点, 基于VAST会议近5年的论文, 从意义构建及合作、文本分析、高维数据可视分析、空间时间分析和应用实例5个方面进行梳理总结。[结果] 阐明可视分析学的根本原理和跨学科属性, 发现主要从开发新算法、改进现有模型和变换研究角度等方面拓展可视分析学研究。[结论] 可视分析学目前围绕意义构建基础算法和设计原则, 重点突破文本分析、高维数据和空间时间数据, 探索全面应用, 是高度面向应用的学科, 且应用面非常广泛, 虽然还处在发展期, 但能为信息服务尤其是智能服务提供方法论支持。
[目的] 通过对专题知识库中文本资源的可视化展现为用户提供更直观的导航。[方法] 在多层次文本聚类生成的资源划分结果的基础上, 通过主题发现、降维处理与可视化展现等步骤, 实现专题知识库中文本资源的可视化导航。[结果] 提出一种TF-ICF主题词抽取算法, 并综合利用优化的树图与散点图实现专题知识库的可视化展现, 帮助用户便捷地了解知识库概况、定位所需关注的主题、理清各资源间的关联。[局限] 在可视化展现过程中存在部分人工干预, 知识库可视化展现的交互性仍有待改善。[结论] 提出的可视化方法能较好地应用于专题知识库的资源展现, 对进一步优化专题知识库的用户体验有重要意义。
[目的] 通过对参考文献在学术论文正文中的引用及分布情况的分析,探究参考文献的网络结构形态。[方法] 基于575篇结构化的学术论文数据,利用文本抽取、相似度计算等技术, 构建每篇学术论文的参考文献的网络结构,结合实例分析参考文献之间的内在联系及其可能的原因。[结果] 参考文献间的相似度与其之间的相对距离有一定的负相关性。单篇学术论文中亦存在多样、复杂的网络结构形态。[局限] 部分全文数据引文标注不够规范,影响实验结果的准确性;参考文献之间相对位置的衡量仍不够精确,需要深入挖掘文本加以解决。[结论] 从实验结果来看,参考文献的网络结构大致可分为三类,其形成的原因各有不同。单篇论文中参考文献网络仍需深入研究。
[目的] 对TimeML应用于汉语文本时间关系标注的可行性进行研究并验证。[方法] 基于TimeML标准及其主要标签, 针对汉语时间表达的特点, 探讨主要标签在汉语中的适用性。[结果] 虽然汉语语言和英语语言在语法结构和句法结构上存在差异, 但是TimeML标准在汉语上的应用是可行的。[局限] 英汉语言结构的不同导致在TimeML五个主要标签中涉及语法结构的属性在英汉对译文本之间不能完全平行实现。[结论] TimeML作为英文时间关系标记语言, 可以有效地应用于汉语文本时间关系的标注。本研究为汉语文本中事件时序推理及深层次的汉语文本时间关系解析研究奠定了基础。
[目的] 基于语义增量对向量空间模型文本分类方法进行改进, 并进行实验验证。[方法] 梳理目前文本表示中语义向量引入和改进的相关研究, 提出文本的语义向量表示实现框架。根据主题词和词汇分别与领域本体中概念之间的映射关系, 构建概念层次树和定位词汇, 计算概念语义相似度, 结合语义增量实现文本的语义向量构建。[结果] 通过文本分类的对比实验发现, 本文所提方法可行且有效, 在宏平均准确率、宏平均召回率和宏平均F1方面优于其他方法。[局限] 在向量空间模型基础上的改进, 语义信息的表达不够充分, 应继续探索文本建模的真正语义化实现方法; 应对多种类型数据进行实验验证, 以提高方法的适用性。[结论] 探索原始向量空间模型的语义化问题, 对当前文本分类及其语义关联等研究具有现实意义。
[目的] 研究缺少消费者行为信息的情况下, 商品信息推荐系统的框架和流程。[应用背景] 推荐系统是解决信息过剩问题的有效手段, 但是过度依赖消费者行为信息的推荐过程会遇到系统的冷启动问题, 也会引起消费者对隐私问题的忧虑。[方法] 在推荐过程中引入商品领域知识, 以交互的方式将消费者对商品定性的用途需求转变为消费者对商品定量的属性需求, 为消费者推荐合适的商品信息。[结果] 设计构建原型系统, 实验结果表明消费者对该推荐过程有较高的满意度。[结论] 本文提出的方法能够在一定程度上解决推荐系统的冷启动问题和隐私保护问题。
[目的] 对基于主题模型的演化方法进行梳理与分析, 总结各方法优缺点及在情报分析领域的适用性。[文献范围] 从Google Scholar、Web of Science中以"Topic/Theme Evolution"、"Time Topic Model"、"Dynamic Topic Model"为关键词/主题词进行文献检索, 结合引文查询, 经阅读后筛选出25篇作为本文的参考文献。[方法] 采用文献分析法, 对比各模型实现机制与功能特征, 总结不同种类模型的优缺点及适用领域。[结果] 目前的主题演化模型主要在可变主题数、支持在线分析、连续时间窗三个维度进行实现, 大多数系统具备1-2个功能, 基本可以满足情报分析的应用需求。[局限] 对一些模型的具体实现分析不够深入。[结论] 不同来源、不同粒度、不同时间窗的演化分析应该针对具体应用需求, 结合模型特点使用相应的主题模型演化方法。
[目的] 为改善基于信任的推荐算法中显式信任值不够精确、隐式信任值难以度量、信任传播路径不易确定等问题, 提出一种在信任网络中随机游走的推荐算法。[方法] 利用二部图网络结构的一维投影度量用户间的信任值并形成用户间直接信任的矩阵, 把该矩阵作为转移概率矩阵, 用于投影后的用户网中进行带重启动的随机游走, 游走过程直至网络中的信任分布趋于稳定, 即信任熵最大时停止。稳定后的信任分布即为全局信任分布。[结果] 通过在MovieLens数据集上的实验表明, 该算法相比于其他算法, 可以显著提高平均绝对误差(MAE)、平均排序倒数(MRR)、标准化折扣增益值(nDCG)。[局限] 由于二部图网络结构算法固有的冷启动问题, 因此本算法受到新用户/新项目的限制。[结论] 该算法能使推荐更精确并且命中的对象排在列表的前端, 具有很强的应用价值。
[目的] 为提高并列结构识别结果的准确率, 根据专利文献中并列结构的特点, 提出一种规则与条件随机场相结合的并列结构识别方法。[方法] 根据中文专利文献中并列结构的特点, 运用规则提取对称并列结构; 对规则提取的并列结构进行捆绑, 运用条件随机场识别单层的并列结构; 在上述识别结果的基础上, 运用错误驱动的方法, 对识别结果进行后规则处理。[结果] 实验结果表明, 该方法可以有效地识别专利文献中的单层并列结构, F值达到76.57%。[局限] 实验所用规则可以进一步改进, 规则的运用直接影响并列结构的识别效果。[结论] 规则与条件随机场相结合的识别方法对于中文专利文献中单层并列结构的识别是有效的。
[目的] 弥补传统方法在潜在合作关系挖掘中的缺陷和不足, 提高潜在合作关系的挖掘效果。[方法] 在分析简单计算法、最小值计算法与传统TFIDF算法缺陷和不足的基础上, 提出改进TFIDF算法, 并将其引入到潜在合作关系挖掘中。[结果] 利用《北大中文期刊核心目录(2012年版)》中19种图书情报类期刊近5年情报学研究方法应用领域的论文作为样本数据, 发现简单计算法与最小值计算法受到作者发文量影响较大, 传统TFIDF算法的挖掘结果很难实现从潜在合作关系转化为现实合作关系, 而改进TFIDF算法对此的满足度则表现得非常突出。[局限] 改进TFIDF算法未考虑论文中作者之间的排名顺序对潜在合作关系的影响。[结论] 通过将4种挖掘结果进行对比和评价, 证明改进TFIDF算法较其他传统方法更科学、更具有优越性和实用价值。
[目的] 针对电子商务中产品评论存在较多垃圾评论的问题, 提出新的特征提取方法, 提高垃圾评论的识别率。[方法] 根据量化评价的思想, 使用词性路径匹配模板检测评论中的评价句, 并在分词中加入自定义评价词词典, 提高评价句的识别率。利用评价句的数量能够很好地区分与产品无关的评论或垃圾评论的优点, 结合评论的主题词、情感倾向、文本结构等, 有针对性地提取相应的特征。[结果] 实验结果显示, 利用该特征识别垃圾评论的准确率为97.96%、F值为88.48%。[局限] 该方法主要用于中文垃圾评论的识别, 不适用于英文产品评论。[结论] 所提取的特征能够高效准确地识别垃圾评论, 亦可用于正常评论的有用性量化评估及排序, 有广泛的应用价值。