[目的] 构建Web 数据到RDF 数据(W2R)转换框架, 实现Web 数据的RDF 结构化。[方法] 采用W2R词表构建转换框架的底层结构, 并根据设计的系统本体和Web 页面元素组成映射文件进行数据的RDF 结构化,同时采用Virtuoso 数据库进行数据存储。[结果] 通过对映射文件的灵活配置, 在不修改任何程序代码的基础上,实现Web 数据的RDF 结构化、不同数据源之间数据的整合以及RDF 数据的Named Graph 存储及推理。[局限] 系统的本体结构以期刊和文献结构为主, 尚不支持其他知识领域。此外, 针对RDF 数据的持久化存储, W2R 框架目前仅支持Virtuoso 数据库。[结论] W2R 框架实现Web 数据的RDF 结构化, 为语义网络和关联数据的应用提供标准化数据。
[目的] 从大规模的甲骨文基础数据中发现实体间的语义关联, 为甲骨文研究提供语义支持。[方法] 在文本挖掘的基础上, 结合语义Web 技术, 将实体及其关系RDF 化并在生成的RDF 集合中进行语义搜索, 利用本体关系和本体推理挖掘RDF 对象间显式或隐式的语义关系。[结果] 该方法在甲骨文文献和甲骨卜辞上的语义挖掘平均F1 值分别达到74.49%和70.61%, 满足甲骨文信息处理的需求。[局限] 利用本体实现语义挖掘时分别基于本体库中的三个不同本体, 未将本体进行集成。[结论] 实体RDF 化可以提供规范的结构化语义描述;LarKC 体系适用于甲骨文大规模语义处理。
[目的] 基于Sogou 查询日志构建人工标注集, 实现查询专指度的特征分析与自动识别, 并对识别效果进行分析与评测。[方法] 选取用户查询串基本特征与内容特征进行统计分析, 并分别训练决策树、SVM 和朴素贝叶斯分类器对专指度进行自动识别。[结果] 使用以上特征的识别效果良好, 十折交叉检验的宏平均F-measure均高于0.8。[局限] 分类特征的选择未考虑用户点击信息; 朴素贝叶斯的独立性假设在本实验中是否可以忽略仍需进一步验证。[结论] 利用查询串基本特征和内容特征, 可以有效识别弱、略和强专指度查询。
[目的] 研究专利检索日志中的同义词获取方法。[方法] 提出一种基于用户行为分析的语义关系获取算法, 利用检索式的逻辑运算符关系提取候选同义词对, 结合拼音、字型、缩写、简繁等特征, 从专利检索日志中挖掘出一部同义词词典。[结果] 实验结果表明, 该方法识别同义词的准确率达到74.5%, 共生成17 495 组同义词, 生成词典的规模超过目前已有研究中的一些方法。[局限] 该词典生成算法较适用于使用复杂检索式的图书情报检索领域。[结论] 丰富了基于日志的语义词典获取领域的研究。
[目的] 实现短文本特征扩展, 提高短文本分类性能。[方法] 按照特征词和隐含主题两种特征粒度, 分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布, 将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。[结果] 与LDA 模型的短文本分类算法相比, 本文提出的分类算法在复旦语料、Sogou 语料和微博语料上的Macro_F1 分别平均提高4.9%、5.9%和4.2%, 在Micro_F1 上分别平均提高4.6%、6.2%和2.8%。而与VSM 的短文本分类算法相比, 本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。[局限] 短文本中存在很多《知网》未收录的特征词, 无法利用《知网》计算相似度, 影响分类效果。[结论] 本文方法能有效提高短文本分类性能。
[目的] 准确计算中文文本间的相似度, 以提升文本分类的精度。[方法] 利用TF-IDF 算法计算特征词项权值, 并借助知网分析词项间的语义关系, 提出一种基于知网语义相似度的文本相似度加权算法, 并对该算法进行中文文本分类实验。[结果] 实验结果表明, 该方法较传统的文本相似度计算方法在文本分类性能上有所提高。[局限] 该算法的时间复杂度较高, 文本分类的处理速度有待提高。[结论] 该方法考虑特征项间的语义关系, 能够有效提升中文文本的分类精度。
[目的] 在大数据环境下, 从文本流中准确且快速地检测出特定领域的突发事件。[方法] 利用Kleinberg突发检测方法和LDA 主题模型方法, 将其扩展到MapReduce 并行框架中, 实现并行语料预处理、并行突发词检测、并行突发文档过滤和并行主题提取。[结果] 对新闻文本流进行模拟仿真实验, 结果表明, 该并行方法在特定领域突发事件检测中准确率P、召回率R 和调和平均值F 分别最高可达87.50%、77.78%和82.35%。[局限] 基于MapReduce 的并行方法难以实现大规模动态文本流在线(Online)实时(Real-time)突发事件检测。[结论] 与传统串行突发事件检测方法相比, 所构建的分布式并行化方法在保证检测结果正确性的同时, 具有良好的可扩展性, 性能得到较大提升。
[目的] 针对中文网络客户评论, 给出一种评论可信度排序模型, 辅助消费者决策。[方法] 构建评论可信度指标体系, 借助Visual Studio 程序开发平台对指标进行预调整和数值优化, 进而采用问卷调查法获取指标打分, 结合模糊层次分析法构建可信度排序模型。[结果] 发现与网站原始评论排序相比, 按模型获得的评论排序更科学合理, 而无“有用性投票”的评论未必不可信, 实验间接表明“有用性投票”对评论可信度重要, 但非唯一的影响指标。[局限] 指标权重设置存在主观性, 应加强权重打分的专业性。[结论] 本文的排序模型综合考虑多项指标及其预调整方法, 为中文网络客户评论提供一种兼顾评论客观信息和语义特性的可信度排序方法。
[目的] 提出一种中心化的身份认证模式, 解决用户身份管理问题。[应用背景] “国家公共文化数字支撑平台”的身份认证问题既需要考虑平台自身拓扑结构的特性及其影响, 也要兼顾平台各成员图书馆原有用户身份的自治性问题。[方法] 通过隐式或显式的全局身份及其与自治身份的映射关系统一成员图书馆的自治身份, 达到身份资源统一规划的目的。[结果] 该模式下, 用户无需记忆多个身份, 支撑平台下的成员图书馆共享用户信息, 以实现用户中心思想, 并且有利于新成员图书馆的加入。[结论] 该模式具有一定可行性, 但也存在效率、身份歧义、安全性等问题, 需要在应用于支撑平台的过程中调整和试验。
[目的] 建立中国农业科学院机构知识库(CAAS-IR), 促进中国农业科学院(CAAS)全院知识资产的数字化保存、集中揭示和传播利用。[应用背景] 随着国内外IR 建设和开放获取运动的迅速发展, 以及中国农业科学院院所科研信息化的驱动, CAAS-IR 将成为中国农业科学院重要的知识基础设施。[方法] 以DSpace 开源软件作为基础平台, 利用Java 语言和Solr 搜索引擎进行本地化优化改造。[结果] 搭建中国农业科学院院所两级IR平台, 在DSpace-core 基础上, 扩展分面检索、关联检索以及科研统计分析等功能。[结论] CAAS-IR 的建设实践, 提升了科研人员和科技管理部门对IR 的认知水平。IR 的建设是技术与内容、管理与服务联合协作的产物, 有效的激励机制和增值服务有助于IR 的实施。
[目的] 研究Hadoop 平台下一种改进的并行朴素贝叶斯算法并实现网络舆情信息分类。[应用背景] 网络舆情信息存在数据量大, 分散度高, 数据非结构化等特点, 现有技术难以实现网络舆情的准确、快速分类。[方法] 利用Hadoop 平台分布式数据存储与并行处理的优良特性, 实现朴素贝叶斯分类算法的并行化运行; 将采集的舆情文档依照HDFS 架构进行本地化存储, 并通过MapReduce 进程完成并行分类处理。[结果] 对MapReduce封装后的并行朴素贝叶斯分类算法进行性能测试, 结果表明本算法分类效率比集中式舆情分类算法提升82%,分类准确率达到85%以上。[结论] 本算法能够有效提升网络舆情分类能力与分类效率。
[目的] 通过智能手机实现图书馆内图书快速定位与导航, 提高图书寻找效率。[应用背景] 读者在图书馆内查找书籍效率较低, 需要一种新的图书快速定位和导航方式。[方法] 建立路标系统及索书号和馆藏位置映射表, 在手机中查找图书并查找相应馆藏位置, 应用HEAA 算法实现馆内图书导航。[结果] 读者使用智能手机在馆内任意地点搜索定位图书, 并导航到所在书架, 查书效率能够提高一倍以上。[结论] 此方案成本较低, 实现、使用方便, 定位和导航效果较好。
[目的] 设计一种满足专业数字图书馆用户需求的浏览器工具条。[应用背景] 以成都飞机设计研究所的B/S 模式数字图书馆为基础, 有效利用数字图书馆拥有的大量专业馆藏资源。[方法] 采用Besttoolbar 为开发工具, 搭建工具条基础架构, 并利用JavaScript 脚本实现更多的功能。[结果] 设计和实现嵌入IE 的工具条, 实现向导式服务、划词检索、在线学科馆员咨询等功能。[结论] 提升专业数字图书馆用户体验, 简化用户操作, 可以有效提高专业数字图书馆信息资源的利用率。
[目的] 解决图书馆门户网站不能自动适应PC 端和移动端等不同设备的问题。[应用背景] 访问图书馆门户网站的设备除PC 外, 还有各种不同分辨率、不同操作系统的智能手机和平板电脑, 满足这些设备的使用给图书馆门户网站开发带来极大挑战。[方法] 使用响应式网页设计技术, 在Drupal 开发平台下, 结合HTML5、CSS3、JavaScript 技术, 实现云南大学图书馆响应式门户网站的设计和开发。[结果] 一次开发就能自动适应PC端、平板电脑端和智能手机端等不同设备的正常使用。在IE7+、Chrome5+、Firefox3.6+中有良好显示, 自动适应苹果、三星、小米等不同移动设备。[结论] 本网站正式启用后, 反映良好, 运行稳定, 维护成本低, 并对未来设备有良好扩展性。