[目的]构建国际重要科研机构Web存档系统。[方法]基于IIPC开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。[结果]在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。[局限]没有使用大规模采集存档进行检验。[结论]扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。
[目的]通过对查询串进行扩展, 实现查询串的主题分类。[方法]利用伪相关反馈技术得到查询串扩展文本抽取文本特征, 并提出一种向量空间压缩算法对特征进行融合, 分别利用向量余弦夹角和SVM模型对其进行分类。[结果]实验结果中正确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。[局限]根据搜索引擎返回结果进行查询扩展, 在线处理效率不高。[结论]该方法对查询主题分类是有效的, 并且利用机器学习方法比利用余弦夹角有更好的效果, 且对于提高搜索引擎质量有重要意义。
[目的]为提高分类准确率, 引入词性改进特征权重计算方法, 进而影响文本特征权重的取值。[方法]采用对比实验的方法, 将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中, 采用粒子群算法迭代计算最优词性权重。两组实验均采用SVM分类器进行分类。[结果]实验结果表明: 改进的权重计算方法比传统的TF-IDF方法的分类效果更好, 分类准确率在不同特征维度下都得到明显的提高, 提高幅度在2-6个百分点。[局限]由于实验条件的不足, 在使用粒子群算法寻找最优权重配比时得出的结果仅是接近最优解的配比, 需要扩大数据规模与增加迭代次数才能得出更佳的权重配比。[结论]在文本分类当中引入词性能有效提高分类准确率, 各词性权重大小的排序从高到低为名词、字符串、动词; 结合词性的权重计算方法并不只适用于某个特定的语料集, 还可以适用于一般的语料集。
[目的]通过运用叙词表和文本两种数据源和三种概念筛选方法提高领域概念筛选的效率。[方法]提出一种领域概念三层递进筛选方法, 从叙词表和文本两种数据源提取领域概念, 利用概念相关性、上下文和领域性以点到面三层递进的方式计算领域概念的概念属性和领域属性。[结果]实验结果表明, 基于概念相关性、上下文和领域性的三层递进筛选方法将准确率和召回率分别提高到74.71%和71.25%。[局限]实验数据只来自测绘领域, 还未使用其他领域的数据验证该方法的可行性。[结论]本研究提高领域概念筛选的准确率和召回率, 综合效率高于样本中的其他方法, 能够更加高效地筛选出不同学科的领域概念。
[目的]设计一种自动计算汉语词语抽象度的方法, 并将其用在自然语言理解中的隐喻识别任务。[方法]以统计学习理论中逻辑回归为计算模型, 把神经网络语言模型获取的词语词向量作为特征, 通过构建抽象词库得到特征权重向量, 计算汉语词语抽象度。提出一种基于词语抽象度的汉语隐喻识别算法, 验证该方法的应用效果。[结果]通过与已有的方法进行实验对比, 本文设计的汉语词语抽象度计算方法更接近于人的认知常识;并且在隐喻识别任务中, 也体现出更好的准确率。[局限]词语词向量表示词语抽象程度有一些缺陷; 抽象词语库的规模影响特征权重向量的学习。[结论]词语抽象度计算可以表现为人对概念的一种抽象分类能力, 本文提出的汉语词语抽象度计算方法得到的结果能够较好地拟合人的认知, 并且实验证明词语抽象度可有效提高隐喻识别的效果。
[目的]建立未登录词识别模型, 提升发现自然科学领域文本中未登录词的能力, 同时降低人工干预成本。[方法]在假设的基础上, 构建条件随机场(CRFs)与领域本体元素集相结合的未登录词识别模型。以生物多样性文本为样本, 通过比较不同模型性能的差异, 检验假设, 验证模型的合理性。[结果]实验结果表明, CRFs模型选择单纯的字、字词混合序列、字词混合序列及默认词性、字词混合序列及含自定义语义功能标记的词性为特征时, 未登录词识别能力依次提升。该结果证明研究假设为真, 本文建立的模型科学、合理。[局限]模型标注未登录词的准确性有待提升。[结论]该模型具有更强的未登录词识别能力, 同时可以极大地降低人工建立训练集的成本。
[目的]研究《红楼梦》前八十回与后四十回的关系, 从而判定《红楼梦》是否为一人所写。[方法]定量统计和定性分析相结合, 比较前、中、后四十回的独有词; 利用虚词、词及词类的N元文法模型、实词以及词长进行聚类; 计算三个部分的相似度。[结果]证明前八十回与后四十回有差异。前八十回用词连贯性较高, 更重视细节描写, 长词较少, 可读性更强; 后四十回更重视动作和场景化描写, 长词较多, 可读性稍弱。[局限]仅限于词和N元文法, 未能进一步考察语义、语篇等方面的特征。[结论]从词、词类、短语串和词类串等方面分析, 前八十回与后四十回很可能并非一人所作。
[目的]通过对标签传播方式的控制, 提高社区发现的质量和效率, 提升社区发现在推荐系统中的能力。[方法]提出一种高效的基于临近节点影响力强度的标签传播社区发现算法, 利用临近节点间的影响强度优化标签的传播路径。[结果]在真实数据集和人工数据集上的实验结果表明, 利用邻近节点间的相互影响强度进行标签的传播和更新, 本文的算法社区发现准确率比经典LPA算法提高2-5倍, 比MLPA算法提高约10%。[局限]实验数据的规模有待加强, 临近节点影响强度的概念模型的推广还需要完善。[结论]为提高社区发现的质量, 减少标签传播的不稳定性提供一种可行方案。
[目的]通过图论和复杂网络理论中的链接(关系)预测算法挖掘科研合作网络的结构信息, 并预测目前尚未合作的学者有哪些在未来会产生合作关系。[方法]提出一种新颖的集成局部拓扑特征因子和全局社区拓扑特征的混合拓扑因子合作关系预测模型(Mixture Topological Factor, MTF), 该模型引入朴素贝叶斯模型关系预测算法计算局部因子, 采用社区贡献度和参与度计算全局社区特征因子进行集成。[结果]实验结果表明, MTF方法能够在采用不同社区算法的基础上有效地对真实的科研合作网络关系预测问题建模, 在效果上也要优于一些经典和新近提出的算法。[局限]该方法有待进一步应用到更大规模的网络结构中。[结论]能够通过深入挖掘科研合作网络基于社区信息的拓扑属性提高预测精确度, 同时为该类模型的研究提供一种新的方案。
[目的]研究社交媒体知识协作网络中的明星节点和经纪人节点对知识传播的影响。[方法]运用Wikipedia中生物科学领域的197个知识点构建知识协作网络, 利用社会网络分析工具分析知识节点的相关指标, 并使用统计方法进行研究模型估计。[结果]处于网络中心位置的明星节点或拥有较多结构洞的经纪人节点, 其传播效果较好, 网络节点的粉丝群体协作规模在社交媒体知识传播中起到了半中介效应。[局限]样本局限于生物科学领域部分知识节点, 从整体网角度看, 界限选取和学科领域的不同是否会影响研究结果还有待进一步分析。[结论]明星节点和经纪人节点的优势一方面直接发挥作用, 另一方面通过粉丝群体的媒介效应发挥作用。
[目的]设计针对科技知识组织体系(STKOS)数据进行多版本及版本内修订管理的方案, 并研建实际服务系统。[应用背景]STKOS共享服务平台要求实现对不同版本数据的管理、发布及应用, 并及时发布当前版本的修订信息。[方法]在定义历史版本、当前正式服务版本、临时版本三种STKOS版本类型的基础上, 设计STKOS版本变更信息数据结构与STKOS多版本管理、版本内修订管理流程。基于医药卫生范畴STKOS数据, 研建STKOS版本管理系统。[结果]在千万量级数据场景下, 构建STKOS版本管理系统, 实现STKOS多版本管理与版本内修订管理。[结论]本系统可同时支持海量数据STKOS多版本管理及版本内数据修订管理。
[目的]利用本体推理实现关联数据的链接发现。[应用背景]以图书馆领域为应用背景, 以图书资源为研究对象, 探索应用本体推理建立图书资源之间的链接关系。[方法]提出含本体推理的链接发现框架, 给出框架各个层次的描述, 并使用Fuseki、Jena、Pubby和PHP等技术实现该框架, 设计并执行链接发现框架的有效性检验方案。[结果]实验结果表明, 利用该框架能有效建立图书资源的链接关系, 与基于相似度匹配方法相比, 该框架可将链接发现的平均查全率提高约15%, 并可实现语义层次上的知识发现。[结论]本体推理可有效实现关联数据的链接发现, 具有较高的工程应用价值。
[目的]构建毕业清证工作新模式, 扩展图书馆的自助服务渠道, 提升读者体验。[应用背景]随着数字化校园的深入建设和图书馆毕业清证工作量的激增, 传统方式效率低且形成信息孤岛, 一站式自助服务更具优势。[方法]基于MVC和改进的三层架构开发模式, 运用开源界面库Duilib, 结合ODBC、API、Web Service等技术, 将毕业清证相关系统的信息整合于一个平台处理。[结果]读者通过一体机终端自助结清相关款项、注销账户, 自助率大于90%。[结论]系统的运用使得毕业清证工作清晰化、规范化、自动化, 对外部系统透明化。