复杂产品设计知识智能检索研究

引用本文

马绪凯, 丁晟春. 复杂产品设计知识智能检索研究. 现代图书情报技术, 2014, 30(9): 44-50
Ma Xukai, Ding Shengchun. Research on Intelligent Retrieval of Complex Product Design Knowledge. New Technology of Library and Information Service, 2014, 30(9): 44-50 复制到剪切板

Permissions

复杂产品设计知识智能检索研究

马绪凯, 丁晟春

南京理工大学经济管理学院南京 210094

通讯作者: 马绪凯 E-mail:maxukai2008@163.com

作者贡献声明：

马绪凯: 提出研究思路, 设计研究方案, 完成实验, 起草撰写论文; 丁晟春: 提出研究课题, 修改论文框架、修订论文。

基金:*本文系国防科技工业局基础科研项目“基于知识工程的******智能设计”(项目编号: A2620133003)、国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(项目编号:11&ZD152)和中央高校基本科研业务专项资金项目“移动互联网服务使用偏好学习机制研究”(项目编号:30920140111006)的研究成果之一;

摘要

【目的】快速、准确获取产品设计知识, 以满足复杂产品设计过程中的知识需求。【方法】以本体作为知识表示模型, 对产品设计知识进行组织、表示。利用贝叶斯算法识别设计人员检索问句类型, 减少候选问题集的范围。基于TF(Term Frequency)及余弦相似性度量检索问句与候选问题集的关键词相似度, 基于问句的词形与句长计算检索问句与候选问题集的句法相似度。【结果】利用该方法在国防领域身管产品设计知识上进行测试, 实验结果查准率为91.3%, 查全率为86.2%, 查准率优于其他算法。【局限】检索结果依赖于候选问题集的数量, 在大规模问题集的情况下, 相似度算法运算量很大, 需进一步优化。【结论】测试结果表明该方法在复杂产品设计知识检索中是有效的, 对问句类型识别、问句相似度计算具有积极意义。

关键词: 复杂产品; 本体; 知识表示; 相似度; 知识检索; 身管

中图分类号:TP391

Research on Intelligent Retrieval of Complex Product Design Knowledge

Ma Xukai, Ding Shengchun

College of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

Abstract

[Objective] Product design knowledge is obtained as fast and accurate as possible in order to meet complex product design process needs.[Methods] Use Ontology as knowledge representation model to organize and represent product design knowledge so as to provide a common understand of product design knowledge. Use Bayesian algorithm to identify the type of retrieval questions in order to reduce the scope of the candidate questions calculate keywords similarity between retrieval question and candidate questions based on TF and cosine similarity, calculate syntax similarity based on word forms and sentence length of retrieval question.[Results] Test result shows that accuracy rate is 91.3%, the recall rate is 86.2%, and accuracy rate better than other algorithms.[Limitations] Search result depends on the number of candidate questions. For large-scale data, complexity of similarity algorithm is very high, and the algorithm needs further optimization.[Conclusions] The method is effective and has a positive significance for identifying the type of questions and similarity computation.

Keyword: Complex product; Ontology; Knowledge representation; Similarity; Knowledge retrieval; Barrel

Show Figures

1 引言

复杂产品是指客户需求复杂、产品组成复杂、设计技术复杂的一类产品, 如航天器、飞机、汽车、船舶、武器系统等, 复杂产品研制是一个继承与重用设计知识的过程, 而设计知识往往散落和隐含在科学原理、技术标准、产品实例、产品部件设计参数、专家经验性知识、三维模型之中。复杂产品设计过程涉及到产品设计流程知识、部件知识、设计流程参数、产品实例及其属性值, 而这些过程知识相互联系, 形成一个复杂的知识网。现有的企业知识管理系统主要是面向企业管理, 是事务性的业务知识管理, 难以支持复杂产品设计过程^{[ 1]}。因此, 有必要对产品设计知识进行分析和组织。本体自从被引入到人工智能领域, 就自然而然地成为一种重要的知识组织模型和工具^{[ 2]}。而智能检索的目标是为用户提供既简洁又准确的信息, 尽可能保证较高的查全率和查准率。本体能够描述特定领域概念之间的关系, 提供对领域知识的共同理解。因此, 本文将本体作为产品设计知识建模与表示工具, 提出复杂产品设计知识智能检索方法。

2 相关工作

本体作为一种有效表现概念层次结构和语义的理论和方法, 被广泛应用于计算机科学和信息管理领域, 并且被成功应用于构建新的智能检索系统。2009年, Jin等^{[ 3]}提出基于本体的OWL产品设计知识检索模型; 2011年, Chen等^{[ 4]}提出基于规则和本体的产品设计知识方法, 两者都能有效提供产品设计开发知识需求, 但都存在知识模型经常变动等问题。贾雪峰等^{[ 5]}利用本体中语义概念关系及语义扩展机制对查询关键词进行概念扩展, 进而计算相似度返回检索结果。孟红伟等^{[ 6]}利用领域本体进行查询处理与语义扩展, 通过查询关键词与领域概念的相关度计算进行检索。曹灵莉等^{[ 7]}基于本体对产品绿色设计知识进行表示, 通过语义检索和文本相似度匹配, 实现绿色设计知识检索。但部分研究^{[ 5, 6, 7]}基本思想都是以关键词为检索对象, 通过关键词的相似度计算获取结果。而设计人员的检索需求往往是复杂的, 关键词难以表达检索意图, 可能无法以几个关键词的简单组合表述清楚。因此, 检索效果很难达到设计人员的需求。然而以自然语言问句方式进行检索时, 不需要设计人员把问题分解成关键词, 可以提高检索结果与检索意图的匹配度。Wang等^{[ 8]}提出基于问句的语法结构计算问句的相似度, 将问句作为一个整体进行计算, 但准确率偏低。董自涛等^{[ 9]}基于编辑距离算法计算句子间相似度, 但其相似度局限在句子词汇计算上, 精度不高。Moreda等^{[ 10]}提出基于知网计算问句与问题集的相似度, 但知网收录的词汇数量有限, 特定领域内词汇更少, 在相似度计算方面具有局限性。张亮等^{[ 11]}基于向量空间模型计算句子间相似度, 将问句与问题库逐一进行计算, 运算量大, 时间复杂度大。

针对上述不足, 本文提出复杂产品设计知识智能检索方法: 利用本体对产品设计知识进行建模。通过贝叶斯算法识别设计人员检索问句类型, 减少候选问题集的范围和算法运算量, 提高检索效率; 依据TF及余弦相似性度量问句与候选问题集的关键词相似度, 基于问句的词形与句长计算问句与候选问题集的句法相似度, 综合两相似度值获取问句相似度, 从而在本体中获取匹配的答案返回给设计人员。

3 复杂产品设计知识智能检索方法

本文提出的复杂产品设计知识智能检索方法如图1所示:

	Figure Option View Download New Window
	图1 复杂产品设计知识智能检索方法

其基本思想为:

(1) 复杂产品设计知识大多为非结构化信息, 难以有效利用, 通过对这些信息进行抽取, 并以OWL本体语义进行表示, 形成产品设计知识本体, 而本体的作用就是在特定的产品设计领域, 存储产品设计相关的概念、属性、实例以及相关资源, 便于知识重用;

(2) 为提高检索的效率, 针对设计人员的检索问句倾向构建候选问题集, 依据实际情况对问题集进行分类, 在不同的类目中填充候选问句;

(3) 依据TF及余弦相似性计算问句与候选问题集关键词相似度, 基于词形、句长相似度计算问句与候选问题的句法相似度, 并综合两个相似度值实现问句匹配;

(4) 获得相似问句集合, 遍历集合逐次从本体中将对应的知识返回。

3.1 复杂产品设计知识表示

复杂产品设计知识一般存储在不同领域和来源的半结构甚至非结构化的文档中, 产品不同组成部分的相关知识的关系复杂, 使得产品设计基于已有知识的重用存在困难^{[ 12]}。因此, 对产品以及设计领域中的非结构化、半结构化的知识进行结构化的有效表示, 以促进知识的共享和重用, 是产品设计知识表示的一个关键环节。

(1) 知识的获取

知识的获取就是将已有的产品设计知识, 包括经验、事实、规则、实例等从文档或繁杂的知识数据库中总结和提取出来, 并转换成一定的形式。产品设计中所需知识来自多学科、多领域, 且存储方式异构。这些知识存储于专业书籍、技术文档报告、电子表格、设计图纸以及设计人员的头脑中。因此, 需要深入分析产品设计知识的概念, 确定所要获取的知识。本文结合身管设计知识可能涉及的设计规范、手册等, 归纳出5类设计知识, 即描述性知识, 如身管的功能、结构、行为等属性特征; 判断性知识, 如身管设计中的逻辑关系(因果、条件关系); 过程性知识, 如身管设计的设计阶段、操作以及技术路线; 计算性知识, 如身管的计算公式、函数; 手册知识, 如身管设计的各种标准或文档、图表等。对获取的知识进行再加工和细化, 为设计知识的本体表示奠定基础。

(2) 基于OWL的设计知识表示

由于复杂产品结构、功能概念繁多, 属性类型多样, 不同概念间存在约束。而本体表示语言具有高度结构化, 能准确地表示出知识之间的联系, 且语义具有互操作性, 可以实现知识共享和交换。相对于其他本体描述语言, OWL具有更强的语义描述功能。本文依托课题组前期已经构建完成的用于自行火炮多学科优化设计的自行火炮设计本体, 本体中包括2 406个类, 728个实例, 203个属性。选取其中的身管部件, 以本体编辑工具Protégé构建身管设计本体的OWL片段为例, 说明产品设计本体表示的最终结果。

上述OWL片段表示身管设计本体中“身管应力公式”与“身管工程计算”的父子类关系, “烧蚀寿命终止标准”与“身管技术标准”的实例归属关系。图2是身管知识表示本体可视化效果图:

	Figure Option View Download New Window
	图2 身管知识表示本体可视化展示

3.2 候选问题集构建

候选问题集是把设计人员可能提出的常见问题组织在一起, 目的是使后续的相似度计算等较复杂的过程都在候选问题集这个相对较小的范围内进行。智能检索技术的核心就是快速地比较设计人员的检索问题与候选问题集中的问句, 进而选定与其最相似的问题。如果存在相似问题, 则将本体中对应的答案作为结果返回。这个过程可以用两个映射表示:f₁:Q₁→Q₂,f₂:Q₂→O。其中,Q₁为设计人员检索问题,Q₂为候选问题集中的问题,O为本体中对应的知识集合。

复杂产品设计人员在设计过程中检索问题有泛有细, 如“单筒身管的属性有什么?”、“自紧身管的实例有什么?”等属于比较泛的问题; 而“膛压点到炮口部安全系数为多少?”、“炮口部左区间的取值是什么?”这样的问题则属于细化的问题。根据产品设计人员的实际需求以及产品设计本体将问题候选集分为4类, 如表1所示:

表1 候选问题集分类表

在问句相似度计算时可以先识别问句的类型, 减少待匹配候选问题的数量, 提高检索的效率; 便于候选问题集的维护与更新。在收集候选问题集时, 首先针对问题集的4种类型获得设计人员在实际检索中的提问方式, 并根据设计人员在实际操作中问句倾向, 对候选问题集进行填充; 其次, 以设计人员的常用提问方式为出发点, 对每种类型的检索问句方式进行扩充, 如设计人员对类别C₁的提问倾向为“身管有什么优点?”, 以此为模板进行“身管的优点是什么”、“身管有哪些优点”扩充, 丰富候选问题集, 提高问句匹配的准确度。本文使用的候选问题集库来源于三方面: 课题组在构建自行火炮本体过程中根据已有的类、实例以及属性对不同问题类别进行填充; 在设计人员检索过程中, 获取检索问句并根据问句的类型自动加载到问题集中; 在本体维护与更新过程中, 对新添加的类或实例构建问句, 人工填充到问题集中。当前候选问题集中类别C₁包含7 749条问句, C₂包含557条问句, C₃包含2 300条问句, C₄包含2 228条问句。

3.3 问句相似度计算

(1) 问句类型识别

分析问句的类型可以减少候选问题集的范围, 在问题集中找到和设计人员问句相匹配的问题就更加快速高效, 从而提高检索的速度和准确性。问句类型的识别方法有基于规则的算法和基于机器学习的算法^{[ 13]}, 而基于机器学习的方法通用、易扩展, 不需要像基于规则的算法构建各种规则, 所以采用基于机器学习的贝叶斯算法进行问句分类。

贝叶斯算法根据已知两个事件的条件概率得到这两个事件交换后的概率, 也就是在已知P(A|B)的情况下如何求得P(B|A)。条件概率P(A|B)表示事件B已经发生的前提下, 事件A发生的概率, 求解公式如下:

P(A|B)=P(AB)/P(B) (1)

同理:

P(B|A)=P(AB)/P(A) (2)

由公式(1)和公式(2)得出贝叶斯分类思想的基础公式:

(3)

在本文中, 应用贝叶斯算法则是对于待分类的问句S, 求解S出现的条件下属于类别C_i(i=1,2,3,4)的概率P(C_i), 则问句S归属于最大的P(C_i)所对应的类别C_i。具体步骤如下:

①以候选问题集中的4个类别中问句作为训练样本, 对问句S进行训练;

②设定类别集合C={C₁ , C₂ , C₃ , C₄}, 对应候选问题集中的4个类别;

③现在的需求是根据设计人员输入的问句S判断S所属的类型是什么, 即求解P(C_i|S), 选择其中最大P(C_i|S)所对应的C_i, 则认为问题S的类别最可能是C_i。根据贝叶斯公式(3)可知:

(4)

由于分母P(S)为问句S出现的概率, 它是个常数, 所以只需要求解分子P(S|C_i)P(C_i)即可, 其中P(C_i)是问题类别C_i出现的概率, 它是可以求解的, 设候选问题集中C_i的问句个数为N_i, 则:

(5)

因此, 求解P(C_i|S)的关键在于求解P(S|C_i), 又因为问句S的各个关键词是条件独立的(各个关键词出现与否互不影响), 所以有:

(6)

④最后求P(w_j|C_i), 它表示问句类别为C_i时关键词w_j出现的概率, 设wordN_j为候选问题集中类别为C_i时关键词w_j出现的次数, wordN为候选问题集中问题类别为C_i时所有关键词出现的次数, 则:

(7)

问句S类型得到解决。

(2) 问句关键词相似度计算

利用贝叶斯算法确定设计人员问句S的类别后, 接下来是利用具体的相似度算法将问句S与候选问题集中对应类别中的问句逐一进行相似度计算。返回相似度较大的候选问题集中的问句对应本体中的答案。本文基于TF^{[ 14]}及余弦相似性度量检索问句与候选问题集的关键词相似度, 基于问句的词形与句长计算检索问句与候选问题集的句法相似度, 综合两个相似度值计算句子相似度。下面以问句S与候选问题集中的问句Q为例阐述问句相似度计算。

S: 56式152 mm榴弹炮的身管的初速是多少?

Q: 59式152 mm加农炮的身管的初速?

①对问句S和Q进行分词处理。由于ICTCLAS分词系统效率高而且可以加载本地关键词词库, 准确度高^{[ 15]}, 所以选用ICTCLAS加载本地关键词库(词库来源于身管设计本体中的类、实例、属性, 利用本体操作工具Jena获取), 最终获得的S、Q分词结果如下(未对分词结果进行停用词处理, 实际中需要去除停用词):

S: 56|式|152 mm|榴弹炮|的|身|管|的|初速|是|多少|?

Q: 59|式|152 mm|加农炮|的|身|管|的|初速|?

②列出分词后出现的所有词汇, 词汇之间以逗号分开, 具体如下:

[56,式,152 mm,榴弹炮,的,身,管,初速,是,多少,?,59,加农炮]

③计算词频TF, 统计问句S与Q中词汇在步骤②中的词频, 词汇与数量之间以空格分开, 具体如下:

S: 56 1, 式 1, 152 mm 1, 榴弹炮 1, 的2, 身 1, 管 1,初速 1, 是 1, 多少 1, ?1, 59 0, 加农炮 0

Q: 56 0, 式 1, 152mm 1, 榴弹炮 0, 的2, 身 1, 管 1, 初速 1, 是 0, 多少 0, ?1, 59 1, 加农炮 1

④根据问句中每个词汇对应的数量, 列出问句S与Q的词频TF向量:

S: [1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 0, 0]

Q: [0, 1, 1, 0, 2, 1, 1, 1, 0, 0, 1, 1, 1]

⑤将问句S与Q表示成向量, 那么向量之间就会形成一个夹角, 因此, 可以通过夹角的大小来判断向量的相似程度, 夹角越小, 就代表越相似, 即S与Q越相似。根据余弦定理, 假定a向量是(x₁,y₁), b向量是(x₂,y₂), 那么可以将余弦定理表示为:

(8)

余弦的这种方法对n 维向量也是成立的, 所以可以得到问句S与Q的相似度如下。

计算出问句S与Q的相似度cos(S,Q)为0.77。

(3) 问句句法相似度计算

基于TF及余弦相似性算法只考虑问句关键词的匹配以及权重, 而没有考虑问句中词与词之间的关联, 为了弥补这个不足, 在问句相似度计算中, 引入基于问句的词形与句长的句法相似度算法。

①词形相似度

Wordsim(S,Q)表示问句S与Q中词的相似度, 从组成句子的词及词性上计算句子在形态上的相似度, 计算公式为:

(9)

其中, Word(S)、Word(Q)分别表示句子S与Q中关键词出现的频次,SameWord(S,Q)表示S与Q相同关键词出现的频次。

②句长相似度

从问句长度上计算句子相似度, 句长相似度计算公式为:

(10)

其中,Len(S)和Len(Q)分别表示问句S与Q的关键词个数, 如Len(S)=12,Len(Q)=10,Lensim(S,Q)=0.91。

在问句相似度计算中, 其他需要考虑的因素还有次序、关键词之间的距离等。在本文产品设计知识检索中, 复杂问句较少, 因此忽略了这些因素。综合关键词相似度与句法相似度, 定义问句S与Q的相似度为:

(11)

考虑到算法在复杂产品设计知识检索中的实际应用, 规定, β₁ ≥ 0.7 ≥ β₂ ≥ β₃,且β₁ + β₂ + β₃ = 1。

4 实验

4.1 评价指标

从查准率和查全率两个方面对复杂产品设计知识智能检索方法评估与分析。查准率是查询出的准确答案个数与查询出的所有答案个数的比值,公式如下:

(12)

查全率是查询出的准确答案个数与候选问题集中所有准确答案个数的比值, 公式如下:

(13)

4.2 数据介绍

(1) 本体

构建身管产品设计本体的概念、实例、实例值等元数据来源于现有的书籍、设计规范、手册以及领域专家提供的设计信息。设计资源利用已有数据, 数据属性以及对象属性根据身管产品自行定义, 如数据属性hasDefinition(定义)、对象属性hasDesignProcess(设计流程), 利用Protégé构建身管本体, 得到类861个, 实例557个, 属性132个, 本体关联设计资源文档711篇, 视频206个, 图片1 056张, 公式327个。

(2) 候选问题集

候选问题集采用已有的数据作为训练集, 通过人工方式组织80条检索问句, 每个类别C_i(i=1,2,3,4)各20条作为测试集, 如表2所示:

表2 候选问题集训练集与测试集数量

4.3 结果与分析

分别利用问句关键词相似度算法与综合相似度算法, 根据本文提出的方法进行验证。首先确定算法中系数值,β1=0.7,β2=0.3,β3=0.1, 然后将检索问句逐次输入到系统中, 记录系统每次返回的答案数以及正确的个数, 得到查准率与查全率, 如表3所示:

表3 实验结果

通过系统测试结果可以发现, 综合相似度算法要优于单纯问句关键词相似度算法, 主要是因为基于TF及余弦相似性算法主要针对关键词为单位进行相似度计算, 忽略了问句作为一个整体的影响, 这也印证了本文在算法设计上的初衷。同时可以看到应用本文的算法可以获得较好的查准率与查全率, 准确率比张亮等^{[ 11]}研究中算法高出2.3%, 满足了在复杂产品设计知识检索中的需要。

5 结语

针对当前复杂产品设计过程中不能快速、准确获取产品设计知识的问题, 本文进行产品设计知识智能检索技术研究。利用本体OWL语言对产品设计过程中涉及到的知识进行结构化、形式化表示。为提高检索效率与准确度进行候选问题集的分类构建, 综合利用TF及余弦相似性算法和基于词形与句长的相似度算法对检索问句和候选问题集进行相似度计算, 使得检索系统在查准率与查全率两方面获得很好的评测结果。为实现本文检索方法的广泛使用, 将对如下问题展开深入研究: 研究本体的分析方法和表示形式; 进一步扩展本体的检索能力; 研究如何自动实现候选问题集的扩充, 细化问题集的分类。

参考文献

View Option

[1]	余旭, 刘继红, 何苗. 基于领域本体的复杂产品设计知识检索技术[J]. 计算机集成制造系统, 2011, 17(2): 225-231. Yu Xu, Liu Jihong, He Miao. Design Knowledge Retrieval Technology Based on Domain Ontology for Complex Products[J]. Computer Integrated Manufacturing System, 2011, 17(2): 225-231. [本文引用:1]
[2]	张功杰, 赵向军, 陈克建. 面向本体的语义相似度计算及在检索中的应用[J]. 计算机工程与应用, 2010, 46(29): 131-133. Zhang Gongjie, Zhao Xiangjun, Chen Kejian. Ontology Oriented Semantic Similarity Calculation and Application in Retrieval[J]. Computer Engineering and Applications, 2010, 46(29): 131-133. [本文引用:1] [CJCR: 0.457]
[3]	Jin H M, Peng W L. Study on Product Design and Development Based on Design Knowledge Base [C]. In: Proceedings of the 2nd International Symposium on Computational Intelligence and Design. 2009: 463-467. [本文引用:1]
[4]	Chen S, Yan Y, Wang G. Product-Design Knowledge Retrieval Based on Ontology and Rule [C]. In: Proceedings of the 2nd International Conference on Computer Engineering and Application. 2011: 285-290. [本文引用:1]
[5]	贾雪峰, 王建新, 齐建东, 等. 基于领域本体的智能检索模型[J]. 计算机工程, 2010, 36(23): 171-174. Jia Xuefeng, Wang Jianxin, Qi Jiand ong, et al. Intelligent Retrieval Model Based on Domain Ontology[J]. Computer Engineering, 2010, 36(23): 171-174. [本文引用:2] [CJCR: 0.492]
[6]	孟红伟, 张志平, 张晓丹. 基于领域本体的文献智能检索模型研究[J]. 情报杂志, 2013, 32(9): 180-184. Meng Hongwei, Zhang Zhiping, Zhang Xiaodan. Research on Intelligent Information Retrieval Model Based on Domain Ontology[J]. Journal of Intelligence, 2013, 32(9): 180-184. [本文引用:2] [CJCR: 0.951]
[7]	曹灵莉, 陈扬, 张雷. 基于本体的产品绿色设计知识检索方法研究[J]. 合肥工业大学学报: 自然科学版, 2013, 36(5): 513-518. Cao Lingli, Chen Yang, Zhang Lei. Study of Knowledge Retrieval During Product Green Design Based on Ontology[J]. Journal of Hefei University of Technology: Natural Science, 2013, 36(5): 513-518. [本文引用:2] [CJCR: 0.6162]
[8]	Wang R, Wang X H, Chi Z R, et al. Chinese Sentence Similarity Measure Based on Words and Structure Information [C]. In: Proceedings of International Conference on Advanced Language Processing and Web Information Technology. 2008: 27-31. [本文引用:1]
[9]	董自涛, 包佃清, 马小虎. 智能问答系统中问句相似度计算方法[J]. 武汉理工大学学报: 信息与管理工程版, 2010, 32(1): 31-34. Dong Zitao, Bao Dianqing, Ma Xiaohu. Question Similarity Computing in Intelligent Question Answering System[J]. Journal of WUT: Information & Management Engineering, 2010, 32(1): 31-34. [本文引用:1]
[10]	Moreda P, Llorens H, Saquete E, et al. Combining Semantic Information in Question Answering Systems[J]. Information Processing and Management, 2011, 47(6): 870-885. [本文引用:1] [JCR: 0.817]
[11]	张亮, 冯冲, 陈肇雄, 等. 基于语句相似度计算的FAQ自动回复系统设计与实现[J]. 小型微型计算机系统, 2006, 27(4): 720-723. Zhang Liang, Feng Chong, Chen Zhaoxiong, et al. Design and Implementation of FAQ Automatic Answering System Based on Similarity Computing[J]. Journal of Chinese Computer Systems, 2006, 27(4): 720-723. [本文引用:2] [CJCR: 0.46]
[12]	吴鹏, 王曰芬, 丁晟春, 等. 基于本体的机械产品设计知识表示研究[J]. 情报理论与实践, 2013, 36(10): 91-95. Wu Peng, Wang Yuefen, Ding Shengchun, et al. Research of Machine Product Design Knowledge Presentation Based on Ontology[J]. Information Studies: Theory & Application, 2013, 36(10): 91-95. [本文引用:1] [CJCR: 1.5]
[13]	张宇, 刘挺, 文勖. 基于改进贝叶斯模型的问题分类[J]. 中文信息学报, 2005, 19(2): 100-105. Zhang Yu, Liu Ting, Wen Xu. Modified Bayesian Model Based Question Classification[J]. Journal of Chinese Information Processing, 2005, 19(2): 100-105. [本文引用:1] [CJCR: 1.13]
[14]	覃世安, 李法运. 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10): 27-30. Qin Shian, Li Fayun. Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10): 27-30. [本文引用:1] [CJCR: 1.073]
[15]	张华平, 刘群. 基于角色标注的中国人名自动识别研究[J]. 计算机学报, 2004, 27(1): 85-91. Zhang Huaping, Liu Qun. Automatic Recognition of Chinese Personal Name Based on Role Tagging[J]. Chinese Journal of Computers, 2004, 27(1): 85-91. [本文引用:1] [CJCR: 1.796]

2011

0.0

. 2011, 17(2):225-231

Design Knowledge Retrieval Technology Based on Domain Ontology for Complex Products

为解决产品数据管理系统中知识难以被发现和重用的问题,提出基于领域本体的设计知识检索技术.利用"领域本体-索引知识-数据资源"三层映射结构表达设计知识,形成以领域本体为语义模型和以索引知识为引导的设计知识体系.提出了基于语义的知识检索方法,对设计问题进行语义解析,转换成本体概念集,利用向量空间模型的相似度算法,在检索词元权重中引入语义关系权重,在索引知识词元权重中引入知识域权重,最终匹配符合设计人员检索意图的设计知识.以飞航导弹总体方案设计为例验证了知识检索技术的可行性.

... 现有的企业知识管理系统主要是面向企业管理, 是事务性的业务知识管理, 难以支持复杂产品设计过程^[1] ...

2010

0.0

0.457

. 2010, 46(29):131-133 DOI:10.3778/j.issn.1002-8331.2010.29.036

Ontology Oriented Semantic Similarity Calculation and Application in Retrieval

School of Computer Science and Technology，Xuzhou Normal University，Xuzhou，Jiangsu 221116，China

Retrieval is an important way of information acquisition.The classic means of retrieval is still dwelling on logical similarity or difference between key words without consideration of the semantic relations.Based on knowledge organization system of ontology for the purpose of retrieval，a way of ontology-oriented document and query representation named semantic vector is proposed；further a way of similarity calculation is founded to create condition for semantic retrieval and to make the query result care more about semantic matching.At last an experimental study is presented under the guidance.

检索是获取信息的重要方式。传统检索只停留在关键字异同的逻辑层面，忽略了语义层面的信息。以本体的知识组织体系为基础，以检索应用为目标，提出面向本体的文档和查询的语义向量表示方法，进而建立面向本体的相似度计算方法，为语义检索创造条件，检索结果关注语义层面的匹配。并在理论的指导下，进行实验和分析。

... 本体自从被引入到人工智能领域, 就自然而然地成为一种重要的知识组织模型和工具^[2] ...

2009

0.0

... 2009年, Jin等^[3]提出基于本体的OWL产品设计知识检索模型 ...

2011

0.0

... 2011年, Chen等^[4]提出基于规则和本体的产品设计知识方法, 两者都能有效提供产品设计开发知识需求, 但都存在知识模型经常变动等问题 ...

2010

0.0

0.492

. 2010, 36(23):171-174

Intelligent Retrieval Model Based on Domain Ontology

(1.School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China; 2.Institute of S & T Information of China, Beijing 100038, China)

Compared with the traditional retrieval model, this paper proposes a retrieval model based on domain Ontology combining with the Ontology concepts. The model uses the concept of Ontology in the semantic relations and semantic extension mechanism to map and expand the keyword querying concept. By calculating the document similarity, the model returns search results and shows the better retrieval precision rate and recall rate.

在传统检索模型的基础上，结合本体概念，提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键词进行概念映射及扩展，通过计算文档相似度返回检索结果，提高检索的查准率和查全率。

... 贾雪峰等^[5]利用本体中语义概念关系及语义扩展机制对查询关键词进行概念扩展, 进而计算相似度返回检索结果 ...

... 但部分研究^[5,6,7]基本思想都是以关键词为检索对象, 通过关键词的相似度计算获取结果 ...

2013

0.0

0.951

... 孟红伟等^[6]利用领域本体进行查询处理与语义扩展, 通过查询关键词与领域概念的相关度计算进行检索 ...

... 但部分研究^[5,6,7]基本思想都是以关键词为检索对象, 通过关键词的相似度计算获取结果 ...

2013

0.0

0.6162

... 曹灵莉等^[7]基于本体对产品绿色设计知识进行表示, 通过语义检索和文本相似度匹配, 实现绿色设计知识检索 ...

... 但部分研究^[5,6,7]基本思想都是以关键词为检索对象, 通过关键词的相似度计算获取结果 ...

2008

0.0

... Wang等^[8]提出基于问句的语法结构计算问句的相似度, 将问句作为一个整体进行计算, 但准确率偏低 ...

2010

0.0

. 2010, 32(1):31-34

以为例,在智能问答系统中,综合考虑问句的词和语义等多方面特征,并对编辑距离法进行改进,设计了一种新的组合式问句相似度计算方法.实验结果表明,该算法取得了良好的效果,可以有效地提高问答系统的性能.

... 董自涛等^[9]基于编辑距离算法计算句子间相似度, 但其相似度局限在句子词汇计算上, 精度不高 ...

2011

0.817

0.0

. 2011, 47(6):870-885 DOI:10.1016/j.ipm.2010.03.008

Combining Semantic Information in Question Answering Systems

Abstract This paper presents two proposals based on semantic information, semantic roles and WordNet, for the answer extraction module of a general open-domain question answering (QA) system. The main objective of this research is to determine how the system performance is influenced by using this kind of information, and compare it with that of current QA systems based on named entities (NEs). NE-based QA systems achieve good results with NE-based questions. However, with common noun (CN) based questions, like “ Where is the stomach? In the abdomen ”, they fail, and this is the main reason for our study. In this paper our new proposals for answering different types of questions are evaluated and compared with an NE-based approach for both NE-based and CN-based questions. From the results obtained it may be concluded that, with the aid of our proposals, the QA system performs much better with CN-based questions when semantic information is used (semantic information F β =1 =74.73% vs. ). Moreover, the more semantic information the system uses, the better the precision and correctness of the answer it achieves.

... Moreda等^[10]提出基于知网计算问句与问题集的相似度, 但知网收录的词汇数量有限, 特定领域内词汇更少, 在相似度计算方面具有局限性 ...

2006

0.0

0.46

. 2006, 27(4):720-723

Design and Implementation of FAQ Automatic Answering System Based on Similarity Computing

FAQ(Frequently Asked Question)在互联网站上广泛使用,但绝大多数FAQ的检索与回复都是手工进行.本文介绍了一个较为完整的基于语句相似度计算的FAQ自动回复系统,包括基本计算模型的选取、FAQ特性的分析、FAQ数据形式化表示及特征向量索引、权重计算等,并给出详细的语句相似度计算算法,实验结果表明,对于频率高、共性大的问题,系统有很高的准确率.

... 张亮等^[11]基于向量空间模型计算句子间相似度, 将问句与问题库逐一进行计算, 运算量大, 时间复杂度大 ...

... 同时可以看到应用本文的算法可以获得较好的查准率与查全率, 准确率比张亮等^[11]研究中算法高出2 ...

2013

0.0

1.5

... 1 复杂产品设计知识表示复杂产品设计知识一般存储在不同领域和来源的半结构甚至非结构化的文档中, 产品不同组成部分的相关知识的关系复杂, 使得产品设计基于已有知识的重用存在困难^[12] ...

2005

0.0

1.13

. 2005, 19(2):100-105

Modified Bayesian Model Based Question Classification

随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果.开放域问答系统通常包括问题分类、问题扩展、搜索引擎、答案抽取和答案选择五个主要部分.问题分类在问答系统中起着很重要的作用,它的准确性直接影响到最终抽取的答案的准确性.本文在对已有的贝叶斯分类方法进行分析的基础上,对该方法进行了改进.为了验证该方法的效果,构造了问题的训练集和测试集.从实验结果可以看出,该方法在实际应用中获得了较好的效果.

... 问句类型的识别方法有基于规则的算法和基于机器学习的算法^[13], 而基于机器学习的方法通用、易扩展, 不需要像基于规则的算法构建各种规则, 所以采用基于机器学习的贝叶斯算法进行问句分类 ...

0.0

1.073

... 本文基于TF^[14]及余弦相似性度量检索问句与候选问题集的关键词相似度, 基于问句的词形与句长计算检索问句与候选问题集的句法相似度, 综合两个相似度值计算句子相似度 ...

2004

0.0

1.796

. 2004, 27(1):85-91

Automatic Recognition of Chinese Personal Name Based on Role Tagging

该文提出了一种基于角色标注的中国人名自动识别方法.其基本思想是:根据在人名识别中的作用,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别.识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率.该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到.通过对16M字节真实语料库的封闭与开放测试,该方法取得了接近98%的召回率.文中介绍了计算所汉语词法分析系统ICTCLAS,集成人名识别算法之后,词法分析的准确率提高了1.41%,同时人名识别的综合指标F-1值达到了95.40%.不同实验从各个角度表明:基于角色标注的人名识别算法行之有效.

... 由于ICTCLAS分词系统效率高而且可以加载本地关键词词库, 准确度高^[15], 所以选用ICTCLAS加载本地关键词库(词库来源于身管设计本体中的类、实例、属性, 利用本体操作工具Jena获取), 最终获得的S、Q分词结果如下(未对分词结果进行停用词处理, 实际中需要去除停用词): ...