[目的] 研究在长期保存实践中如何应用不变性检查保障数字对象持久不变, 指导可信赖保存系统研发工作.[方法] 通过分析保存领域的相关标准规范, 对比相关工具, 总结保存实践, 按照保存生命周期流程进行综合分析.[结果] 在长期保存的整个生命周期的关键节点上(摄入、生成AIP、存储、分发), 可根据实际需求采用不同的不变性检查方法和策略实施不变性检查, 同时总结不变性信息的存储方式和不变性功能的构建方式.[结论] 有利于帮助保存系统的开发人员了解和掌握不变性检查的方法和策略, 从而在实践中因地制宜地开发不变性检查功能和策略, 有效保障数字对象的持久不变性.
[目的] 探讨社会化网络的发展对解决传统的个性化推荐系统面临的诸如数据稀疏性、冷启动等问题的作用.[文献范围] 以社会化网络作为分析背景, 从Springer、Google Scholar检索2004年至今国内外关于信任推荐的研究文献.[方法] 基于信任与不信任两方面对相关文献进行梳理总结, 形成综述.[结果] 指出当前研究中存在信任计算方法不足, 缺乏对不信任因素的深入研究等问题.[局限] 由于研究因素单一, 应结合社会化网络中出现的其他因素进行深入对比分析.[结论] 未来的研究可以从基于情境信任的推荐、挖掘社会化网络中的弱连接关系等方向开展.
[目的] 对RDB-to-RDF的技术方法和工具进行梳理和综述, 提炼其关键技术.[文献范围] 使用Elsevier、Springer、中国知网数据库进行追溯检索RDB到RDF转换的技术和工具等相关中英文文献.[方法] 使用文献调研法, 并按研究主题进行综述.[结果] 从映射思路、技术方法和实现方式等角度进行归纳和分析, 比较常用的映射工具和语言的重要特性以及适用场合, 列举典型的应用场景 [局限] 映射工具比较时缺少具体的定量测评.[结论] 本研究有助于全面了解RDB转换RDF中相关关键技术、工具以及主要应用场景.
[目的] 提高用户参与度, 实现大规模数据的高效管理和信息的快速查询, 完善企业网站信息组织与表示.[应用背景] 网上交易信息庞杂、虚假产品过多的问题使得用户更依赖于企业网站寻求质量保证, 因此, 对企业网站的信息组织与表示提出新的要求.[方法] 将Folksonomy中的资源、标签和用户用RDF表示, 以RDF的存储和检索方式实现用户自由标注标签, 实现Folksonomy应用, 并将其运用到企业网站中.[结果] 实现资源、标签和用户的存储及查询, 使得用户能够自由标注标签, 并进行相应的查询.[结论] 该方法能够加强企业与用户以及用户之间的交流, 为信息的完全开放与共享提供手段, 拓宽Folksonomy的应用范围.
[目的] 利用依存句法分析构建更准确的文本网络, 提高基于网络图的文本特征提取方法的准确率.[方法] 根据依存句法分析的结果确定特征词之间的语义关联, 利用特征词依存方向确定其关联方向, 采用改进的PageRank算法计算节点重要性, 并以此为指标进行特征提取.[结果] 实验结果表明, 相较共词网络, 基于依存句法网络的特征提取方法能在一定程度上提高文本聚类的效果.[局限] 利用依存关系确定特征词关联方向时没有对不同的依存类型进行区分.[结论] 提出的基于依存句法网络的文本特征提取方法是有效的.
[目的] 为解决基于向量空间文本表示模型中语义信息缺失问题, 提出一种基于复杂网络的中文文本表示算法.[方法] 利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算, 然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络.[结果] 实验结果表明, 该文本表示方法可以提高文本相似度计算结果, 改善文本分类效果.[局限] 文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究.[结论] 该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息, 且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确.
[目的] 探索社会标签与文本内容的结合对文本聚类的影响.[方法] 采用Engadget中英文博客数据, 使用TF×IDF、TextRank、TextRank×IDF三种特征抽取方法, 线性函数和Sigmod函数进行相似度加权, AP算法进行聚类.[结果] 结果表明, TF×IDF的聚类效果最好, 两种加权对英文博文聚类有不同程度的改善, 但在中文博文聚类中, Sigmod加权结果稍有下降, 线性加权比Sigmoid加权方法效果更好.[局限] 没有找出标签相似度与内容相似度最佳的权重系数.AP聚类算法不能应用于大数据, 聚簇过多影响聚类结果的展示.[结论] 社会标签与文本内容相似度的线性加权能改善Web文本聚类结果.
[目的] 开放的网络科技信息网页内容之间区分度较小, 传统基于规则和统计学习的方法无法满足网络科技信息网页分类的具体应用需求.[方法] 通过深入分析网络科技信息主题网页的内容和结构, 利用开放本体等资源实现领域特征的学习, 构建半监督的网络科技信息分类模型.[结果] 实验结果表明提出的方法在网络科技信息分类实验中的精度、召回率和F1值分别达到0.9016、0.8756和0.8884, 相比贝叶斯方法具有明显优势.[局限] 该方法在应用到其他类别的网络科技信息分类时, 仍然需要领域专家提供相关领域的核心种子特征.[结论] 该方法可以满足网络科技信息深度加工的需求, 实现有效的网络科技信息网页分类.
[目的] 大规模搜集、整理新词扩充现有词典, 提高汉语分词准确率, 推动中文信息处理的发展.[方法] 根据搜索日志查询串特征及新词特点, 提出扩展搜索日志上下文的新词识别方法.首先, 通过分析查询串的特点获取种子词集合, 利用种子词集在搜索日志中进行全文扩展, 提取候选新词.其次, 根据新词的时间属性发现新词串, 最后基于词语的边界信息, 提出改进左右熵方法抽取语料中存在的新词语.[结果] 在搜狗日志上进行实验, P@100的平均准确率达到89.60%.[局限] 对比词串集合的规模会在一定程度上影响新词的正确率.[结论] 实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别.
[目的] 为减少语料库中训练样本构建时因噪声样本对分类性能的影响, 提出一种基于训练样本中类别数据分布特性的文本分类噪声处理方法.[方法] 通过定义训练样本中各类别的聚类密度来表征类别下文档间的相似程度, 并对文档对相似度分布进行正态归一化处理; 采用近似置信区间估计以及统计相结合的方法获取含有噪声样本的文档对; 基于分布的相对熵和类别聚类密度实现对噪声样本识别的正确性验证.[结果] 利用该方法在公开及自建语料库中进行测试, 与噪声样本处理前相比, 分类性能平均提高1.21%至4.83%.[局限] 样本丰富度有待进一步扩展, 在多领域、多类型数据环境下对该噪声处理方法进行更全面的实验.[结论] 实验结果表明该方法是有效、可行的, 能够有效挖掘训练样本中的噪声样本, 且可一次处理批量检测, 不必事先判断各个噪声样本后再进行检测.
[目的] 针对高水平期刊文献的中文导读这类特定的新闻信息, 构建一套自动汇聚医学网站新闻系统, 实现关键词提取、分类及期刊导航等二次数据加工功能.[应用背景] 为图书馆开展主动推送及学科服务提供国外学术研究信息源.[方法] 利用HttpClient 与HtmlParser构建主题网页采集器, 实现新闻列表页及内容采集.利用IK Analyzer2012分词器及医学主题词表实现关键词提取及学科分类.[结果] 系统实现指定网站新闻的自动采集、关键词提取、学科分类归属等功能.[结论] 为图书馆员开展学术信息推送及学科化服务等提供一套行之有效的工具, 为医学研究者纵览学术进展提供一站式访问.
[目的] 设计一款具有SCI/EI数据库文献数据查重和数据融合功能的软件.[应用背景] 帮助分析人员获得来自SCI/EI数据库的文献融合数据集, 更好地满足微观学科情报分析对灵活构建多来源期刊文献数据集的需求.[方法] 利用两种自动算法和一种半自动算法实现SCI/EI文献数据的准确查重, 在对两者的全记录字段进行深入微观文本分析的基础上实现数据融合.[结果] 可自动标记SCI/EI文献数据的重复记录并生成查重后的融合数据表.[结论] 有效解决两个不同期刊文献数据源的统一分析数据集构建问题.
[目的] 为实现北京大学图书馆门户可用性的最大化, 进行一系列深入的可用性研究以指导新门户的界面设计.[应用背景] 随着学术研究对数字图书馆的依赖性日益增高, 图书馆门户已不仅是其对外的形象窗口, 更应是能协助读者快速获取所需资源且具有良好可用性的信息获取工具.友好易用的界面直接影响着门户的可用性.[方法] 采用Jacob Nielsen的10个启发式评估原则对旧版门户进行启发式评估, 并对92个同行单位进行同行调研和分析, 总结出旧版门户的不足和同行在主页设计时的最佳实践.[结果] 结合对同行网站调研分析得到的最佳实践, 针对旧门户的启发式评估结果, 介绍新门户的设计情况.[结论] 新门户试运行后, 在北京大学图书馆内进行随机抽样问卷调查, 结果显示大部分读者对于本次门户改版是比较满意的.
[目的] 让Web页面保留自身特点的同时, 自动适应移动阅读的特点和需求; 减少开发和维护成本.[应用背景] 提升用户不同设备的访问体验, 适应移动阅读的市场需求.[方法] 以HTML5和CSS3结合JavaScript语言为基础, 采用并改造Bootstrap架构.[结果] 在PC端和移动设备端均能达到比较理想的显示效果.[结论] 响应式网页设计是数字图书馆未来发展的一种方向, 利用该技术移动图书馆和网上图书馆服务将由互补变为融合.