[目的] 研建军事医学科学院机构知识库(AMMSIR),促进机构知识资产的科学组织、集中揭示、存储管理和重用。[应用背景] 完全遵循DSpace开发原则,采用B/S架构,使用PostgreSQL开源数据库,利用Java语言进行开发。[方法] 在最核心的逻辑和功能上沿用DSpace-Core API部分,但不再依赖DSpace默认的展示层,在DSpace-Core API基础上重新设计,加入全新的“事件机制”、“插件机制”和“访问链”等机制。[结果] 实现Solr作为搜索引擎的递进式分面检索与浏览、科技档案管理、机构资源数据分析和相关作者数据分析等功能。[结论] 在基于DSpace的机构知识库软件系统的分面检索、语义分析等功能方面进行有益的探索与实践。
[目的] 通过分析总结和实验研究,提出并形成一种有效的语义知识获取方法,为实现机构知识库的语义化提供理论基础和可行技术路线。[方法] 对国内外的语义知识获取方法进行对比分析,提出机构知识库语义知识获取的体系框架,并总结和深度解析其关键技术;同时,以中国科学院机构知识库平台为例进行实验研究。[结果] 该方法可有效地从机构知识库底层的关系数据库的数据和实体关系结构中自动获取语义知识信息并转化为RDF三元组形式进行浏览和查询。[局限] 定义一个合理有效的语义映射规则,需要经过领域专家评估、较多的人工干预以及反复实验才能确定;不同机构知识库间同一实体对象的语义知识获取关联没有涉及。[结论] 有利于帮助后续研究人员和机构知识库开发人员更好地了解和掌握机构知识库语义知识获取的方法和关键技术,从而为提升机构知识库的服务能力奠定基础。
[目的] 利用分众分类法构建用户、资源和标签的三元组关系实现图书推荐系统。[方法] 利用协同过滤技术,采用余弦算法计算资源相似度,分别设计了书目权值和标签权值,利用稀疏向量的表示方法来表示输入矩阵中的每个资源来压缩稀疏矩阵存储。[结果] 计算后发现书目权值主要分布在0-200的区间内,标签权值符合幂率分布。使用AP和MAP指标对比书目权值高的前20本书在本系统的相关推荐结果要优于豆瓣网。[局限] 因为目前图书馆参与书目标注行为的用户数量不够,所以本文的数据是在采集图书馆的书目数据基础上获得豆瓣网上的该书所对应的用户标注数据。[结论] 本研究有利于图书馆OPAC系统功能完善,利用用户标注数据了解用户需求,提供更好地个性化推荐服务。
[目的] 引导读者就某一话题由浅入深、循序渐进地进行文献的检索与阅读。[应用背景] 文献推荐服务一直是数字图书馆的核心业务之一,对读者进行文献的查询和检索起着重要的作用。[方法] 提出一种基于用户搜索行为演化模式的文献推荐方法(CALL)。从文献库与检索日志中提取文献、读者与检索日志特征;将文献分为n个阅读阶段,利用最长公共子序列算法从三个特征中寻找到文献阅读序列,并将超过一定长度与频率的文献序列作为推荐结果。[结果] 在真实文献库与检索日志数据集上进行广泛实验,验证所提出方法的准确性、执行效率与可扩展性等方面的性能,达到丰富数字图书馆文献推荐的目的。[结论] 本研究可以增强现有数字图书馆的文献推荐工作的性能与效率,促使文献推荐工作向多样化方向发展。
[目的] 为全面获取专家资源,探究多源专家特征信息融合方法。[方法] 从传感器工作过程出发,依次论述基于知识传感器、Web传感器和社会网络传感器的专家特征识别方法。鉴于三种方法获取的专家特征向量存在冲突,围绕资源均衡度设计基于多源信息融合的专家特征识别方法。[结果] 与C-DBLP统计专家特征进行匹配,相似度达到38.97%,与同类型方法比较,结果在正常范围内。[局限] 识别对象多来自高校及科研院所,用于特征识别的资源也多为学术资源,同时Web传感器采集网址集合还有待扩展。[结论] 在语词关系控制情形下,该方法可用于科研团队构建、专家推荐、专家检索等方面。
[目的] 基于AOL查询日志数据集,从Session级别实现面向用户任务的查询推荐。[方法] 从用户任务级别衡量查询间关系,再通过随机游走遍历图的思想为查询构建向量,以此实现候选查询推荐。[结果] 本文方法的推荐效果优于基于查询共现来衡量查询间关系的推荐效果。[局限] 未对拼写错误的候选查询进行拼写纠错;未从查询级别来实现面向用户任务的查询推荐;稀有查询和模糊性查询的推荐效果不佳。[结论] 基于用户任务来衡量查询之间相关关系,能提高查询推荐的实验效果。
[目的] 借鉴Lesk词义消歧思想,提出并实现一种利用术语定义来发现汉语同义词的方法。[方法] 将新能源汽车领域汉语科技词系统中的术语及其定义作为测试集,首先对术语定义做分词和词性标注,并进行人工校对,然后抽取出动词和名词词性的实词,再根据两个术语定义中相同的实词数量及位置信息计算术语的相似度,最后根据相似度和给定的阈值得到同义词关系的推荐。[结果] 利用准确率、召回率、F值对同义词发现效果进行评价,论证该方法的有效性,结果表明该方法可以达到较高的准确率,但是召回率比较低。[局限] 该同义词发现方法不能剔除反义关系和相关关系的术语对,造成召回率较低。[结论] 该方法较为简便快捷有效,并且可达到较高准确率,但召回率有待提高。
[目的] 综合分析特征提取方法并对传统特征提取流程和方法进行改进。[方法] 利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。[结果] 改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。[局限] 实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。[结论] 加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。
[目的] 针对情感分析研究中网络用户评论质量良莠不一的问题,构建过滤模型进行筛选。[方法] 选取涉及产品词汇量、评论长度、情感强度、修饰词数量4个指标作为评判依据,利用多元线性回归方法和来自购物网站的数据构建模型。[结果] 发现涉及产品词汇量、评论长度、情感强度、修饰词数量与评论质量存在相关性。所构建的过滤模型具有较高的召回率和准确率,为情感分析中数据源的筛选提供一种新方法。[局限] 存在数据稀缺性影响,所构建的模型具有局限性。[结论] 在误差允许的范围内,该模型能够对评论的质量等级进行自动判断。
[目的] 针对电子商务平台的中文产品评论,提出一种面向供应链的客户关注特征挖掘方法。[方法] 以产品评论数据预处理方法为核心,改进关联规则挖掘产品特征方法。预处理技术包括产品评价概念树、产品评价特征库和MA_Apriori算法。数据实验以京东商城平板电脑为例,在Weka环境中完成客户关注特征的挖掘。[结果] 实验表明,对于相同的事务文件,采用数据预处理再进行关联规则的产品特征挖掘,特征查全率为90.5%,而关联规则挖掘方法查全率仅为71.4%。并且本方法可实现产品特征挖掘结果的层次化和规范化。[局限] 需要进一步补充汉语分词系统的用户词典,添加产品领域相关的专业词汇,以提高分词准确性。[结论] 本方法有助于供应链各节点企业灵活选择产品评价概念层次,从而有针对性地实施产品改进和服务提升。
[目的] 以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。[方法] 在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。[结果] 实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。[局限] 该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。[结论] 此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
[目的] 结合机构产出SCI论文统计需求,设计一款自动甄别目标机构作者和实验室的软件。[应用背景] 可辅助论文统计部门快速准确识别机构论文作者和实验室(部门),进而获得机构作者和实验室的论文产出分布情况。[方法] 从技术上实现综合利用相同研究单元内作者合作较多的科研特点、自定义作者唯一关键词或合作者字段以及SCI数据库作者相关字段的文本特征来甄别目标机构作者。[结果] 允许用户通过目标机构人员名单维护来实现SCI论文作者甄别的自动化和高准确度。[结论] 有效解决SCI论文中文作者因拼音写法多样且易重名而造成作者相关论文数据难以准确统计的问题,其设计思路也适用于EI及其他数据库论文作者甄别。
[目的] 降低用户获取Web生活服务信息的细节觉察成本和决策成本。[应用背景] Web环境下的生活服务信息,需要结合用户的情景,帮助用户快速获取信息。[方法] 分析总结4种常见的用户需求,结合出行链理论和信息可视化技术中的Bertin编码原则,基于加权图的性质设计算法,进行Web生活服务信息可视化。[结果] 以团购类Web生活服务信息为例,对该交互原型设计进行实现。[结论] 验证Web生活服务信息可视化可以帮助用户快速建立心理定位。
[目的] 分析电子商务中现有产品评价模式的不足,提出一种改进不足的产品评价新模式。[方法] 在国内最大的微博平台上,针对某一产品主题抽取1687条微博数据,并采用文本情感分类技术,对该样本数据集进行建模和分析。[结果] 分析面向产品主题的微博数据,对其蕴含的语义信息进行归纳总结,发现其同样具有产品整体评价功能。并由于微博数据生成的自发性,其分析结果更具有客观性。[局限] 更大规模样本数据的分析没有全面涉及,基于微博的动态产品评价研究没有涉及。[结论] 该模式可以在一定程度上克服原有互联网产品评价模式的弱点,从而吸引更多企业关注微博产品评价信息。