[目的] 通过对社会标签的规范控制,提高社会标签质量,提升其在文本自动分类中的能力。[方法] 提出一种“内核受控,外壳非控”的分类模型,通过建立“社会标签-主题词”概念空间,实现利用主题词对标签词的规范控制。[结果] 实验结果表明本文提出的基于社会标签的中文图书自动分类方法在综合考虑成本、效率和效果的前提下,具有较强的可行性。[局限] 数据获取数量有待进一步增加,同时“社会标签-主题词”概念空间中概念之间深层次语义关系的识别还有待完善。[结论] 为提高社会标签质量、提升其文本自动分类能力,提供一种可行方案。
[目的] 充分重用与共享复杂产品设计中的隐含知识。[方法] 研究本体推理在产品设计中的应用,对产品 设计中的规则需求和类型进行分析,形成逻辑关系和设计参数约束规则,设计产品设计规则到推理规则的转换 流程,提出面向复杂产品设计的本体推理框架。[结果] 基于该框架进行机械手设计中的本体推理实验,在设计 本体构建的基础上实现机械手驱动装置和参数值的推理与知识扩充。[局限] 针对设计参数中的定性约束未能有 效地实现推理。[结论] 实验结果验证本体推理框架的可行性。
[目的] 抽取领域科技文献中句子级创新点。[方法] 面向文献中的句子,以领域词表和本体中的关系为基 础构建识别规则,采用基于主题词重叠度的冗余度计算方法过滤创新点候选集。[结果] 选取肿瘤领域的数据集 进行实验,抽取结果的准确率为89.42%,召回率为60.14%。[局限] 规则有待进一步完善,提高召回率。[结论] 利用领域词表和本体中的关系能有效地抽取科技文献中的句子级创新点。
[目的] 对音乐推荐的研究概况进行调研和总结,探讨其存在的问题,提出相应的研究热点。[方法] 采用文献分析法,从推荐算法的角度简要介绍各个推荐策略,着重根据音乐资源描述方式的不同对现有音乐推荐的相关文献进行归类总结。[结果] 进一步提出运用粗糙集理论提取重要情境信息的方法,将该类情境下的用户偏好与协同过滤推荐技术相结合实现基于情境感知的音乐推荐的新思路。[结论] 现有研究中存在缺乏对用户行为和需求的系统研究、特征提取低层次以及评测指标单一问题。未来可以从群体音乐推荐、本体建模、移动环境下基于情境感知的音乐推荐等方面展开更深入的探讨。
[目的] 提出一种基于力导向模型的非一致节点群组布局算法,以实现直观、生动、美观的信息可视化布局。[方法] 在追溯力导向算法与信息可视化的渊源的基础上,以电荷理论为突破口,借助群组和非一致节点的概念,提出这一算法。该算法利用分层布局思想,各布局单元独立布局,且采用相似但有区别的布局策略。[结果] 利用此算法实现一款面向网络知识组织系统(NKOS)的可视化原型系统,可广泛应用于NKOS(尤其是中文NKOS)中概念实例的可视化展示。[局限] 所提出的算法收敛条件效果还不够显著,以至于在布局过程中存在冗余节点抖动现象,今后可引入温度等神经计算的相关概念加以解决。[结论] 发现一种将图结构结合语义信息转换为树结构,并结合群组概念,利用力导向算法解决其布局问题的方法。该算法可以很好地解决中文叙词表本体等NKOS 的概念实例可视化问题,对画图社区解决其他类似问题也具有参考作用。
[目的] 快速、准确获取产品设计知识,以满足复杂产品设计过程中的知识需求。[方法] 以本体作为知识表示模型,对产品设计知识进行组织、表示。利用贝叶斯算法识别设计人员检索问句类型,减少候选问题集的范围。基于TF(Term Frequency)及余弦相似性度量检索问句与候选问题集的关键词相似度,基于问句的词形与句长计算检索问句与候选问题集的句法相似度。[结果] 利用该方法在国防领域身管产品设计知识上进行测试,实验结果查准率为91.3%,查全率为86.2%,查准率优于其他算法。[局限] 检索结果依赖于候选问题集的数量,在大规模问题集的情况下,相似度算法运算量很大,需进一步优化。[结论] 测试结果表明该方法在复杂产品设计知识检索中是有效的,对问句类型识别、问句相似度计算具有积极意义。
[目的] 为了帮助读者从海量的虚拟读者社区中选择符合其兴趣的社区。[方法] 提出基于主题概率模型的读者社区推荐方法,通过发现读者社区的隐含主题,建立起读者与读者社区在不同主题上的联系,并根据社区和读者的主题相似度进行读者社区推荐。[结果] 在真实数据上的实验证明该方法能够有效地发现读者社区的隐含主题,相比现有的推荐方法,能够准确地推荐虚拟读者社区。[局限] 存在推荐的冷启动问题。[结论] 该推荐方法帮助读者准确迅速地找到感兴趣的主题相关虚拟读者社区,能够促进读者的沟通交流和虚拟读者社区的发展。
[目的] 通过分析智能化IETM 知识库的结构和知识组织方式,对智能化IETM 知识库映射关系演化的方式和映射集的变化进行探讨。[方法] 在本体映射演化方法的基础上,引入映射集合的概念表示映射的存在形式,通过映射集合的交、并、补等运算,表示在数据模块添加、删除和修改时映射关系的变化规律。[结果] 提出一组能够支持智能化IETM 映射演化的算法,该算法在满足映射演化全面和准确的前提下,提高了映射演化效率。[局限] 该映射算法是对IETM 两个重要数据库映射的初步研究,只涉及到映射集的变化,没有过多涉及映射生成算法的研究。[结论] 本文提出的映射演化算法可以提高智能化IETM 知识库映射演化的规范性和效率性,为实现映射演化的自动化奠定一定的基础。
[目的] 在KNN 算法基础上,提高文本分类的分类性能和分类速度。[方法] 提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。[结果] 实验表明,本文方法在复旦、Sogou 平衡、非平衡语料上的 Macro_F1 比KNN 分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN 算法的1/22、1/6 和1/5。[局限] 考虑到KNN 算法的时间效率,实验数据的文本数较少。[结论] 相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。
[目的] 针对文本分类中类别特征向量改变和重叠等问题,对超球支持向量机(HS-SVM)分类算法进行改进。[方法] 基于增量学习和密度决策函数对原始HS-SVM 进行改进,实现超球类支持向量的动态改变,准确计算构造超球支持向量机的决策函数,从而达到提高文本分类效果的目的。[结果] 与原始超球支持向量机的文本分类实验对比表明,本文所提方法在准确率和召回率方面优于其他方案,建模时间减少且对预测精确度的影响不大。[局限] 应进行多种类型数据集上的实验验证,推广方法改进的适用性; 其次对分类算法的底层改进欠缺,需继续探索。[结论] 本研究有利于提高大规模文本分类的准确性和减少训练时间,从而提升文本分类效果。
[目的] 提出一种基于评论产品属性情感倾向评估模型(Review Attribute of Product-Based Emotion Evaluate,RAPBEE 模型),用于在线商品虚假评论的识别。[方法] 针对在线商品虚假评论采用评论产品属性情感倾向离群度量方法,结合已有评论效用研究对评论结果进行综合排序,从而得出评论的可信度序列。[结果] 基于R 语言实现,在模型试验集上,通过RAPBEE 模型识别处理后的评论序列和当前商品真实情况的符合度为86.2%,实验结果表明RAPBEE 模型有较强的实际应用能力与适应度。[局限] 需要依赖于已有属性词典的建模方式,在大规模的数据运行效率上有待改进。[结论] 提供一种新的针对中文商品虚假评论识别处理方法,具有较强的扩展能力。
[目的] 解决中文专利权利要求书分词问题,满足专利相似研究需求。[方法] 总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。[结果] 实验结果表明: 分词的准确率为90%,召回率为95%,F 值为92%。[局限] 由于领域词典的庞大,使得大规模分词的效率降低。[结论] 该方法能够进一步提高中文专利权利要求书的分词效果和效率。
[目的] 以ESI、WoS 数据库作为数据来源,分析目前高科技人才机构属性及学科交叉情况。[方法] 基于三螺旋模型,详细探讨高科技人才所属机构、机构间合作,并从学科维度分析从属学科的三螺旋合作以及其动态演化情况。[结果] 结果表明个体机构就从属而言以高校为主,并逐渐向高校-企业和高校-政府方向发展,然而同时属于三个属性机构高校-政府-企业的人员尚少; 人员合作上仍以高校成员之间的合作为主,表现为内部合作较为紧密,交叉合作相对较弱; 学科演变模式上T(ugi)随时间逐渐增大,交叉发展将是未来学科的方向。[局限] 抽样方法上以典型抽样为主,存在一定的局限,后续工作中有待改善。[结论] 有效地扩展三螺旋模型的应用范围,并补充了科技人才成长及流动方面的理论,同时对我国人才成长及配置提供参考建议。