联合虚拟参考咨询中的自动问答系统设计与实现<sup>*</sup>

引用本文

姚占雷, 郭金龙, 许鑫. 联合虚拟参考咨询中的自动问答系统设计与实现^* . 现代图书情报技术, 2012, 28(9): 15-22
Yao Zhanlei, Guo Jinlong, Xu Xin. QA System Design and Implementation in Collaborative Virtual Reference Service. 现代图书情报技术, 2012, 28(9): 15-22 复制到剪切板

Permissions

联合虚拟参考咨询中的自动问答系统设计与实现^*

姚占雷, 郭金龙, 许鑫

华东师范大学商学院信息学系上海 200241

为了有效解决读者在利用图书馆时遇到的各类问题,华东师范大学图书馆^[14]提供当面咨询、电话咨询、网络表单咨询、在线实时咨询、邮件咨询等服务方式。其馆员已有意识地从咨询记录中抽取出那些普遍的、常被提及的问题进行定期汇总整理形成“常见问题”,共计125条问答知识。此外,该馆自2012年1月4日启用CALIS虚拟参考咨询系统至今(2012年2月28日),共收到48个问题,已解决35个问题^[15]。

基金:本文系2011年度国家社会科学基金青年项目“联合虚拟参考咨询系统的知识库研究”（项目编号：11CTQ003）的研究成果之一;

摘要

以海量的问答记录为研究对象,采用问题语句的主题划分和类别划分相结合的分类方法对问题语句进行理解与组织,形成问答知识库的基本组织框架,基于此依据问答知识的使用频次将其划分为高频访问知识和非高频访问知识,构建一个基于问答知识库的自动问答系统。实验表明:问题语句的两步分类法能够促使问答知识的均衡分布,且问答知识的合理划分有助于改善问答系统。

关键词: 问答知识; 知识库; 问答系统

中图分类号:TP311

QA System Design and Implementation in Collaborative Virtual Reference Service

Yao Zhanlei, Guo Jinlong, Xu Xin

Department of Informatics, East China Normal University Business School, Shanghai 200241, China

Fund:

Abstract

Taking huge amounts of QA records as study objects, the paper proposes a question classification method combining theme and categorization to form a basic framework for QA knowledge base. In this framework, knowledge records are divided into frequently used ones and non-frequently used ones, and an automatic question answering system is constructed. Experiments show that the new classification method can balance the distribution of QA knowledge, and help to improve the efficiency of the QA system.

Keyword: QA knowledge; Knowledge base; QA system

Show Figures

引言

从已有的表单类或实时类咨询记录中识别、获取、分解、重组、表示、存储知识记录形成问答知识库,能够促进问答知识的高效、重复利用。本文描述了利用海量的问答记录构建问答知识库的一般思路,并基于此设计和实现一个自动问答系统,以促使联合虚拟参考咨询服务趋于智能化。

1 研究现状

早在1977年,Lehnert^{[ 1]}在一个研究报告中对有关问答的机制做过长达近300页的陈述,并对自然语言问句的分类做了有益探索。时至今日,国内外诸多学者相继进入此研究领域,并取得了不少研究成果。本文在调研问答系统的研究文献时发现,有关FAQ(Frequently Asked Questions)用于问答系统的研究也受到了国内外学者的重视,这主要源于这样的理论假设,即用户的提问服从帕累托法则——80%的提问是由20%的问题唤起的^{[ 2]},换句话说,通过归纳问答系统中海量的问答记录获得那些相对稳定、常见的问答知识,就能满足绝大多数的用户提问,

实现自动问答。

在国外, Burke等^{[ 3]}从已有用户的问答记录出发,通过待比较问题之间的关键词和句子类型特征等因素实现问题的匹配,较早系统地做了FAQ查询系统(FAQ Finder System)架构的尝试;Voth^{[ 4]}借助对互联网与新闻组(Usenet) 环境中FAQ信息服务的目标用户的详细调查,找到相关用户的群体特征,从而实证了FAQ信息服务在设计时应充分考虑目标用户的真实需求;Tseng等^{[ 5]}在分析当前客户检索内容的基础上,基于FAQ建立了客户自助服务系统,以改善原有延时服务等网络客户服务活动的局限性;Yang等^{[ 6]}研究了如何利用线上FAQ进行知识获取、共享等以改善网络社区学习环境。

近年来,国内也有不少学者开始逐渐关注于如何利用FAQ快速搭建实时咨询服务平台以实现自动回答,如姚飞等^{[ 7]}从大量的咨询记录中整理出的FAQ作为核心语料库,借助开源软件A.L.I.C.E.实现了参考咨询、图书搜索等诸多服务;张巍^{[ 8]}结合FAQ和本体知识库问答技术的优势,实现了基于医院信息本体库的受限领域问答系统;樊康新^{[ 9]}把人们在选购OTC药品过程中产生的海量的问答记录作为数据源,采用基于倒排索引的查找算法、基于知网的语义相似度判别等技术,设计实现了一个OTC问答系统;张梅等^{[ 10]}把国家新闻出版署实名申领系统使用手册中的FAQ作为数据源来构建问答系统,以免去答案抽取步骤而着眼于讨论问句索引与检索等问题。

FAQ信息包含问答系统的两大基本特性(问题和答案),它能够改变问答系统的一般流程——问题解析、信息检索和答案抽取,弱化答案抽取环节。本文认为问答系统正在经历着一场变革,即利用FAQ问答知识库支撑问答系统的架构设计,且这场变革能够更为真实地把握用户需求。然而,FAQ信息本身的组织方式和生成机制目前尚未有统一的标准。

本文着重探讨如何对问题语句(简称“问句”)进行理解与组织,继而形成问答知识库以支撑优化问答系统。

2 研究思路与框架

借助问答记录提供自动问答服务的关键在于对问句信息的合理组织,它既包括对现有问句的整理、分析、组织等,也包括对新问答知识的添加,且新知识加入问答知识库前往往需要通过领域专家的评审。本文主要关注于对现有问答记录的整理,旨在通过构建一个二层分类的问答知识库以支撑自动问答;同时依据问答知识的使用频次,构建了一个高频访问知识库,称作eFAQ(extended Frequently Asked Questions)库。本文约定eFAQ指的是用户频繁访问的问答记录,它是“那些在特定时间区间内能够引起大部分(约占80%)用户提问的问题及其答案的知识集合”的统称,包括传统的FAQ信息,但不限于此。此外,也把非高频访问知识库称作问句信息基础知识库。

基于以上论述,问句A在自动问答系统中的流动路径如图1所示:

	Figure Option View Download New Window
	图1 基于问答知识库的问句信息流动路径

需要经过以下5个步骤:

(1)问句解析与分类: 一条问句A到来之后,系统首先对它进行解析,进行分词、停用词处理和同义转换等,以找到该问句所在的主题和类别。

(2)问句匹配:将解析后的问句A与问答知识库中的问句进行匹配。匹配先在eFAQ知识库中进行,若eFAQ库中没有相关知识,则需要在问句信息基础知识库中进行匹配。匹配的结果是特定问句主题、类别下的相关问答集合。

(3)问句相似度计算:寻找与问句A最相近的问句。

(4)答案返回:若步骤(3)能返回最相近的问句,则将该问句的答案进行处理(注明答案出处、解答人等信息)并呈献给用户;若未能找到合适的问句,则进入异常处理模块,即寻求网络或交由专家解决。

(5)新问答知识添加:对于库中没有记录的新问句,无论是领域专家给出的回答还是通过网络(百科)返回的答案,都须经过评审后方可入库。

3 系统设计与实现

3.1 问句信息基础知识库建设

问句信息基础知识库的构建是问答系统的关键所在。作为问句信息预处理的一部分,本文在建设知识库活动中不仅保留了传统的问句分类方法,还对问句进行基于内容的主题分类。鉴于问答记录的海量特征,通过两步分类法对问句信息进行组织,能够大大减少问句匹配的计算量,提升系统效率。两步分类法的步骤如图2所示:

	Figure Option View Download New Window
	图2 问答系统中问句信息的两步分类法图解

研究通过对问句信息的两层划分,以更为精确地反映用户的真实意图。该方法继承了传统的问句分类方法(即结合领域实际,搜集、加工、整理问句类型的聚集状态,然后再明确所需的问句类型),并引入文本分类理论,即首先考察问句的内容特征并依托问句主题实现问句的预分类,然后结合传统的问句分类方法以便于精确定位问句类型,继而辅助问答系统的改进与优化。

(1)问句主题划分

问句主题划分指的是依据问答记录中问句所表达的主题进行的主题分类,如“请问是否可以复印博士研究生试卷?”这一问句,所反映的主题是“考研信息”。因而,问句主题的划分需要对现有问答记录的内容有所了解。

海量的问答记录已经蕴含了一定的主题信息特征,且是服务提供方人为预先设定好的主题。然而上述主题信息略欠规范且难以直接使用,需要进一步寻找每个主题所对应的关键词序列以形成主题对照表,同时还要考虑增加、删除或合并原有的主题。由此可见,问句主题划分活动要求知识库建设者事先对海量的问句信息所反映的主题特征有较为清晰的认识。以华东师范大学图书馆的参考咨询问答记录为例,本文在原有主题的基础上依据问句的内容特征进行了主题重构,如图3所示:

	Figure Option View Download New Window
	图3 问句主题划分后的知识形态

(2)问句类别划分

问句类别按照问题本身所倾向于表达的事实可以划分为7种类型:询问人(谁建立了西汉王朝?)、询问时间(西汉王朝建立于公元前多少年?)、询问数量(华东师范大学闵行校区有几个教学楼?)、询问定义(什么是FAQ?)、询问地点和位置(华东师范大学位于上海市的哪个区?)、询问状态(服用西洋参有什么需要注意的?)和询问原因(雪花的成因有哪些?)。因此,本文将问句的类别划分为数量型、定义型、时间型、状态型、原因型、地点(位置)型、人物型和其他等8种类型。

针对不同的问句类别需要事先构造出与它直接相关的关键词序列予以表达,然后把得到的关键词序列逐问句进行扫描、匹配分类,以判断问句所属的类别。比如“为什么杀毒软件会把工具条当作恶意插件?”这一问句,因包含了表示原因的“为什么”关键词,而把它划分到了原因型类别下。部分问句类别所对应的常见关键词序列如图4所示:

	Figure Option View Download New Window
	图4 问句类别对应的关键词序列示例

3.2 问句信息基础知识库与eFAQ库的动态转换

知识库建设之初,需要把已知识化的问答记录统一标识为┐eFAQ,然后结合终端用户提交的问句与问答知识之间的匹配情况进行分析,以识别那些高频访问的问答知识(如在一天内访问次数不小于20次的问答知识),继而转化为eFAQ。具体识别流程如下:

(1)把已知识化的问答记录统一标识为┐eFAQ;设时间单位为T。

(2)载入一条用户提问信息,扫描eFAQ寻求答案。未找到,跳至步骤(4);找到,跳至步骤(3)。

(3)返回结果,更新指定问答记录的匹配情况(记录每次被访的时间)。同时把本次用户提问信息记录入库,结束本次问答行为。

(4)扫描┐eFAQ寻求答案。未找到,跳至步骤(5);找到,跳至步骤(3)。

(5)把本次用户提问信息推送至异常处理模块,跳至步骤(3)。

(6)T时刻后,扫描┐eFAQ并针对问答记录与用户提问的匹配情况,做时间序列分析。

(7)汇总与转化。(注:满足T时刻内被访次数不小于n(n为阈值)的问答记录,即为eFAQ。)

(8)T时刻内eFAQ识别结束,进入下一时刻eFAQ识别。

基于eFAQ库的问答系统,系统性能会有一次明显跳跃。这主要缘于系统建设初期,问答系统往往需要全量扫描┐eFAQ,以标识相关问答记录的使用率和响应用户提问,而随着系统使用,eFAQ知识库逐渐覆盖那些能够引起大部分(约占80%)用户提问的问题及其答案的信息集合,使得全量扫描┐eFAQ的机率大为减少,继而提升系统性能。

需要说明的是,为了保证eFAQ知识库中的问答知识始终处于频繁使用状态,还需周期性统计该库中各个问答知识的使用状态,并清除那些较少使用的问答知识,相关操作类似于eFAQ信息的识别,唯一不同的是所做的操作为“删除”操作。具体过程在此不做阐述。

3.3 问句理解

(1)问句解析与分类

问句的解析与分类是问答系统感知用户需求的第一步,也是问答系统能否正确解答用户疑惑的关键所在。鉴于本文是把问句及其对应的答案按问句的主题和属性一一映射到问答知识库中,问句的解析与分类活动就变得尤为重要,它直接决定了问答系统的准确率和效率。本文采用基于问句主题与类别相结合的两步分类法以实现问句的解析与分类,具体流程如图5所示。

	Figure Option View Download New Window
	图5 问句解析与分类流程

问句提交后,系统首先对问句进行解析,这主要包括利用各种词典对问句分词、过滤语气词、查询扩展等操作;系统利用提取的关键词并结合主题对照表(见图3)进行问句主题的匹配;利用类别对照表(见图4)对问句进行关键词扫描匹配,从而得到特定问句主题、类别下的相关问答集合。

比如问句“WLAN出现问题,该如何解决?”在问答系统中首先经问句解析后形成一系列词语碎片 “WLAN”、“Wireless”、“WiFi”、“无线网”、“问题”、“如何”、“解决”,并参照主题对照表进行主题关键词匹配(因“WLAN”与“无线网”属于同义词)得到该问句属于网络相关主题,参照类别对照表进行类别关键词匹配(因问句中包含关键词“如何”)得到该问句属于状态类别,最终确定当前问句的答案存放在网络相关主题且属于状态类别的问答集合中。

(2)相似度计算

①主题相似性判定

主题相似性判断主要考察用户所提交的问句与知识库中的哪个问句主题最为接近,继而将当前问句的主题归为最相似的主题。知识库中的每一个问句主题都有一个唯一的主题关键词序列。主题相似性判定主要依次统计当前问句所包含的关键词在每一主题关键词序列中出现次数总和,并按由大到小的顺序排列,取最大值所对应的主题即为当前问句的主题。当出现最大值不止一个时,则将问句匹配到多个主题。

主题划分主要是出于效率的考虑,目标在于快速定位而不是精确计算相似度。

②问句相似性判定

作为信息检索领域中经典的检索模型,向量空间模型(Vector Space Model,VSM)是近年来使用较多且效果较好的一种信息检索模型。然而相关研究表明,该模型存在着向量空间中各词彼此独立、词的顺序被忽略、一词多义和一义多词问题被忽略及缺乏理论基础等诸多缺陷,不适应于词语间彼此依赖、按需组合等现状。Zhou^{[ 11]}认为两个系统的相似应表现为构成系统的各要素间相似状态,且系统相似度取值的主要因素包括各自组成要素的个数、系统与各级子系统的要素构成、要素的权重、相似元及其相似度等。

研究中所涉及用户提交的问句可以看作一个系统,它是由一个个词或词素组成的。本文把这些词或词素看作是构成系统的要素,通过构建两两问句之间的词或词素相似元,以寻找它们之间的相关关系。通过这种方式,得到当前问句与知识库中相同主题和问句类型下历史问句的相似度序列,然后取出最大值,以判定与预设相似阈值的大小,并以此来明确当前用户所提问的问题是否能在知识库中寻找到答案,继而做出响应。其中,有关两两问句相似度的计算方法为:给定问句A={a₁,a₂,…,a_m},|A|=m和问句B={b₁,b₂,…,b_n}, =n,其中a_i(1≤i≤m)和b_j(1≤j≤n)为系统要素,其权重分别用x_i 和y_j表示。假设系统之间相似元个数为p(p≤min ),记为s₁,s₂,…,s_p∈A×B。不妨设它们分别为1,b₁>、2,b₂>、…p,b_p>,其相似度分别为u_i(1≤i≤p),那么问句A、B的相似度Q 表示为:

Q(A,B) =

3.4 问答知识库优化

(1)问句主题的自动更新

随着时间的推移,那些聚集在“其他”问句主题下的用户提问会呈爆炸式的增长,但采用文本分类的方法因其主题的预设特性而难以适应不断变化的用户提问特征。因而对问句主题的科学、动态划分成为关键。

本文在构建突发事件识别模型活动中,发现可以利用表征突发事件的系列词语的语言学特性及它们之间距离远近的客观分布状态来加以识别^{[ 12]},即把一个个彼此独立的能够描述事件的词语依次导入时段内的新闻报道中,统计它们出现的先后位置信息,继而寻找它们之间是否存在着依赖关系及其相对稳定的近邻现象,并根据这种近邻现象实现新词语检测和发现新事件。本研究同样采用词间距思想,定期扫描被划分到“其他”问句主题下的用户提问,以捕获新的问句信息主题及其关键词序列,完成问句主题的自我更新与完善。具体实现参见文献[12]。

(2)答案优化

通过问答知识库以预设问句答案的形式支撑问答系统,能够快速、实时地推送答案,但就问句对应的答案而言,仅依赖于先前用户的认知不一定完全符合当前用户所需。因而,设定科学、合理的答案优化模式是十分必要的。

①悬而未解问题的答案抽取

知识库在运行初期,问答知识的数量通常是十分有限的。不过作为开放环境下中文知识社区中的典型代表,百度知道(百科)、新浪爱问、雅虎知识堂、互动百科等网络平台为解决此类问题提供了可能。如段利国等^{[ 13]}就通过抓取百度知道平台的问答构建了一个问答系统。研究主要针对问句信息基础知识库中没有相关知识的问句,通过识别其属性进行判断,即有关定义型问题通过从网络中抓取相关解释返回答案,其他类型的问题则提交给领域专家解答。

②已解决的问题的答案修正与评级

对于那些已经存在于问答知识库中的问答知识,主要通过设立用户评级的机制进行质量控制。知识的评级与反馈活动对于知识库的进一步完善十分重要,应在不影响用户体验的前提下,引导用户对当前问题解答的效果做出合理评级。

本文共提供了5个等级(十分符合、比较符合、一般、比较差、十分差)用于答案的评价,并根据用户的反馈,专家将对相关答案进行修正。修正的优先级往往根据用户对答案的评级来制定。比如用户对某问题的答案评级为十分差,问答系统则会将该问题标识为紧急,以要求迅速解决;反之,用户对某问题的答案评级为十分符合,问答系统则会将该问题标识为低。

4 应用实例与分析

为了有效解决读者在利用图书馆时遇到的各类问题,华东师范大学图书馆^{[ 14]}提供当面咨询、电话咨询、网络表单咨询、在线实时咨询、邮件咨询等服务方式。其馆员已有意识地从咨询记录中抽取出那些普遍的、常被提及的问题进行定期汇总整理形成“常见问题”,共计125条问答知识。此外,该馆自2012年1月4日启用CALIS虚拟参考咨询系统至今(2012年2月28日),共收到48个问题,已解决35个问题^{[ 15]}。

4.1 数据准备

参考该馆提供的常见问题分类体系,首先对CALIS虚拟参考咨询系统中沉淀下来的35条问答记录做汇总整理,即剔除答案的口语化表述、多条答案合并处理等,如图6所示:

	Figure Option View Download New Window
	图6 问答记录形成问答知识过程中的剔除口语化示例

图6中答案具有一定的口语化且回答欠妥当,结合图书馆实际,图书的馆藏状态为“在架上”是不允许预约的,该读者所反映的图书状态是不能预约的。就此次问答活动而言,它表征了这样一个现象,即读者对预约的规则、流程等不熟悉。因而,可以形成这样一条问答知识:问题是“如何预约?”,答案是“在图书明细页面的上方都会存在一个预约按钮,而在预约之前,请先确认该图书的馆藏状态。结合本馆实际,馆藏状态显示为在架上的图书,是不允许预约的”。然后,在梳理虚拟参考咨询系统中的问答记录过程中,对原有的问题主题做了修正,即参考咨询服务、图书馆规章制度、外文数据库使用、学位论文、流通阅览服务、电子资源使用、网络相关、考研、试用资源、馆藏目录使用、馆际互借(文献传递) 和其他等12个大类。本文把这样的分类条目称为“主题”,并依托原始问题本身的文本特征,人工依次抽取出每个主题所对应的系列关键词以表征这一主题。最后,把上述整理的125条问答知识和从CALIS虚拟参考咨询系统中整理的35条问答知识统一入库,作为问答知识库的基础信息。

4.2 实例演示与分析

假设现有一个用户向问答系统询问了两个问句,即“无线网出现问题,该如何解决?”和“如何预约?”。下面主要通过图示的方法,依次描述问答系统的响应现状。

	Figure Option View Download New Window
	图7 问答系统的回答可视化界面及其

答案评级反馈示例

图7从用户视角展示了用户提问后,系统能够依据知识库中的问答知识状态,通过相似判定等直接给出简洁、精确的答案。此外,用户还可以对当前系统给出的答案进行效果反馈,如用户对“如何预约?”的问答不满,且将答案效果评定为“十分差”。

	Figure Option View Download New Window
	图8 问答系统的答案信息修正窗口示例

图8从问答管理维度实时呈现了上述用户反馈,即把该问题的解答优先级标识为紧急,此时需要领域专家根据其所掌握的领域知识在左侧答案窗口中进行修正,然后点击“修改当前答案”即可完成对该条知识的修正。

鉴于本文利用问答记录通过事先预设答案的方式来设计问答系统,笔者从eFAQ知识库和问句信息基础知识库中分别随机取出5个问题,通过模拟用户提问的方式获取问答系统的响应时间与反馈的答案,在观察问答系统表现情况的基础上,验证模型设计的合理性。其中,为了系统观察两步分类法的实际效果,在其他条件(知识库的数据规模、相似性判定方法、问句等)不变的情况下,分别统计了问答知识在单一分类体系下(要么按问句主题分类要么按问句类别分类)的回答响应时间,如表1所示。

从表1中可以看出,问句间的相似性判定比较理想,但这只反映了知识库中问答知识的存储状态与当前问句经解析与分析后的状态是一致的。从总体上讲,本文提出的两步分类法在平均响应时间上比按问句主题分类快了1.643秒,比按问句类别分类快了

表1 问答系统中的回答效果及响应时间一览表

2.634秒,同时按问句主题分类因深入问题内部而更为精确和多样,这导致每个问句主题下所聚集的问答知识较为平均,从而使得它在总体响应时间上优于按问句类别的分类体系;从局部来看,eFAQ知识库内问答知识的平均响应时间比问句信息基础知识库内问答知识快了6秒多,且这种差异现象在单一分类体系下更为显著,而问句信息两步分类法则较为均衡且平均响应时间最短,这说明问句信息两步分类法能够促使问答知识的均衡分布,且eFAQ信息的合理组织有助于改善问答系统。尤其是在大数据环境下,对数据的合理拆分与组织是十分重要的。

5 结语

问答系统作为当前自然语言处理中一个热门的方向,还有许多问题需要解决。本文主要是结合具体应用领域实证了问答知识库的构建有助于优化问答系统,以及问句信息的两步分类法用于知识库建设和自动问答的可行性,还有许多值得进一步优化改进的地方。

(1)问句解析与分析中的查询扩展:本文中的查询扩展主要是基于同义词典,也称为“同义词转换”,而查询扩展实际上包括但不限于此,尤其是近几年颇受关注的语义查询扩展等技术,能够提高文档检索的全面性与相关性,因而作为问句信息两步分类法的一种延伸,优化查询扩展是十分必要的。

(2)知识库建设中的问句主题划分:问句主题划分实则为文本分类的具体应用,本文中所介绍的文本分类模型要求知识库建设者事先对海量的问句信息所反映的主题特征有较为清晰的认识,探索其他快速、准确的问句主题划分方法有助于快速支撑问答知识库建设。

参考文献

View Option

[1]	Lehnert W. The Process of Question Answering. Research Report No. 88[R]. Washington D C: ERIC Clearinghouse, 1977. [本文引用:1]
[2]	Huang J Y, Lee H M, Lee S Y. An Automatic Reply to Customers’ E-mail Queries Model with Chinese Text Mining Approach[C]. In: Proceedings of the 6th International Conference on Applied Computer Science(ACOS’07). Stevens Point: World Scientific and Engineering Academy and Society(WSEAS), 2007: 71-75. [本文引用:1]
[3]	Burke R D, Hammond K J, Kulyukin V A, et al. Question Answering from Frequently Asked Question Files: Experiences with the FAQ Finder System[R]. Chicago: University of Chicago, 1977. [本文引用:1]
[4]	Voth C B. The Facts on FAQs: Assumption, Expectation and Audience in Frequently Asked Questions on the Internet and Usenet[D]. Texas: The University of Texas at Arlington, 1999. [本文引用:1]
[5]	Tseng J C R, Hwang G J. Development of An Automatic Customer Service System on the Internet[J]. Electronic Commerce Research and Application, 2007, 6(1): 19-28. [本文引用:1] [JCR: 1.48]
[6]	Yang C Y, Hsieh C W, Chan Y W, et al. Using Online Automated FAQ System to Promote Community Learning[C]. In: Proceedings of the 1st IEEE International Conference on Ubi-MediaComputing. 2008: 535-540. [本文引用:1]
[7]	姚飞, 纪磊, 张成昱, 等. 实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J]. 现代图书情报技术, 2011(4): 77-81. (Yao Fei, Ji Lei, Zhang Chengyu, et al. New Attempt on Real-time Virtual Reference Service——The Smart Chat Robot of Tsinghua University Library[J]. New Technology of Library and Information Service, 2011(4): 77-81. ) [本文引用:1] [CJCR: 1.073]
[8]	张巍. 融合FAQ、本体和推理技术的问答系统研究[D]. 太原: 太原理工大学, 2011. (Zhang Wei. Research on Question-Answering System Mixed with FAQ, Ontology and Reasoning Technology[D]. Taiyuan: Taiyuan University of Technology, 2011. ) [本文引用:1] [CJCR: 0.3372]
[9]	樊康新. 基于FAQ的OTC问答系统的设计与实现[J]. 计算机应用与软件, 2010, 27(3): 178-181. (Fan Kangxin. Design and Implementation of OTC Question Answering System Based on FAQ[J]. Computer Applications and Software, 2010, 27(3): 178-181. ) [本文引用:1] [CJCR: 0.515]
[10]	张梅, 段建勇. 基于常用问题集的问答系统设计与实现[J]. 现代图书情报技术, 2011(9): 83-87. (Zhang Mei, Duan Jianyong. Design and Implementation for FAQ-based Question Answering System[J]. New Technology of Library and Information Service, 2011(9): 83-87. ) [本文引用:1] [CJCR: 1.073]
[11]	Zhou M L. Some Concepts and Mathematical Consideration of Similarity System Theory[J]. Journal of System Science and System Engineering, 1992, 1(1): 84-92. [本文引用:1] [JCR: 0.632] [CJCR: 0.193]
[12]	姚占雷, 许鑫. 互联网新闻报道中的突发事件识别研究[J]. 现代图书情报技术, 2011(4): 52-57. (Yao Zhanlei, Xu Xin. Research on the Detection of Sudden Events in News Stories of Online Information[J]. New Technology of Library and Information Service, 2011(4): 52-57. ) [本文引用:1] [CJCR: 1.073]
[13]	段利国, 陈俊杰. 综合句法结构及语义相似度的问题推荐技术[J]. 计算机科学, 2012, 39(1): 203-206. (Duan Liguo, Chen Junjie. Question Recommended Technology of Integrated Sentence Structure and Semantic Similarity[J]. Computer Science, 2012, 39(1): 203-206. ) [本文引用:1] [CJCR: 0.61]
[14]	华东师范大学图书馆. 总咨询台[EB/OL]. [2012-02-18]. http://www.lib.ecnu.edu.cn/help/info.php.(EastChinaNormalUniversityLibrary.ConsultationDesk[EB/OL]. [2012-02-18]. http://www.lib.ecnu.edu.cn/help/info.php [本文引用:1]
[15]	华东师范大学. 虚拟参考咨询系统[EB/OL]. [2012-02-28]. http: //cvrs. sh. calis. edu. cn: 8080/login. do?anonymous=true&loginpage=firstpage&tenantcode=231220. (EastChinaNormalUniversity. VirtualReferenceSystem[EB/OL]. [2012-02-28]. http: //cvrs. sh. calis. edu. cn: 8080/login. do?anonymous=true&loginpage=firstpage&tenantcode=231220 (作者E-mail: xxu@infor. ecnu. edu. cn) [本文引用:1] [JCR: 4.826]

1977

0.0

... 1 研究现状早在1977年,Lehnert^[1]在一个研究报告中对有关问答的机制做过长达近300页的陈述,并对自然语言问句的分类做了有益探索 ...

2007

0.0

... 本文在调研问答系统的研究文献时发现,有关FAQ(Frequently Asked Questions)用于问答系统的研究也受到了国内外学者的重视,这主要源于这样的理论假设,即用户的提问服从帕累托法则——80%的提问是由20%的问题唤起的^[2],换句话说,通过归纳问答系统中海量的问答记录获得那些相对稳定、常见的问答知识,就能满足绝大多数的用户提问, ...

1977

0.0

... 在国外, Burke等^[3]从已有用户的问答记录出发,通过待比较问题之间的关键词和句子类型特征等因素实现问题的匹配,较早系统地做了FAQ查询系统(FAQ Finder System)架构的尝试 ...

1999

0.0

... Voth^[4]借助对互联网与新闻组(Usenet) 环境中FAQ信息服务的目标用户的详细调查,找到相关用户的群体特征,从而实证了FAQ信息服务在设计时应充分考虑目标用户的真实需求 ...

2007

1.48

0.0

. 2007, 6(1):null-null

Development of An Automatic Customer Service System on the Internet

... Tseng等^[5]在分析当前客户检索内容的基础上,基于FAQ建立了客户自助服务系统,以改善原有延时服务等网络客户服务活动的局限性 ...

2008

0.0

... Yang等^[6]研究了如何利用线上FAQ进行知识获取、共享等以改善网络社区学习环境 ...

0.0

1.073

. , 2011(4):77-81

New Attempt on Real-time Virtual Reference Service——The Smart Chat Robot of Tsinghua University Library

1. Tsinghua University Library, Beijing 100084,China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084,China

Virtual reference service is playing an active and important role in library services. Based on the open source software A.L.I.C.E., Tsinghua University Library develops the real-time smart chat robot -“Xiaotu” to provide various services, including reference service, booking searching, self-learning etc, and promotes “Xiaotu” into the social networking site, and achieves good results.

实时虚拟参考咨询服务在图书馆服务中发挥着积极且重要的作用。清华大学图书馆基于开源软件A.L.I.C.E.开发出实时智能聊天机器人“小图”,提供参考咨询、图书搜索、自我学习等多种服务,并将其推广至社交网络,取得良好的效果。

... 近年来,国内也有不少学者开始逐渐关注于如何利用FAQ快速搭建实时咨询服务平台以实现自动回答,如姚飞等^[7]从大量的咨询记录中整理出的FAQ作为核心语料库,借助开源软件A ...

2011

0.0

0.3372

... 张巍^[8]结合FAQ和本体知识库问答技术的优势,实现了基于医院信息本体库的受限领域问答系统 ...

2010

0.0

0.515

. 2010, 27(3):178-181

Design and Implementation of OTC Question Answering System Based on FAQ

设计并实现了一个基于FAQ(Frequently Asked Question)的OTC(Over The Counter)问答系统.描述了该系统的工作流程、系统结构;详细阐述了系统实现的关键技术,包括基于倒排索引的查找算法、根据用户问题建立候选问题集和基于知网的语义相似度计算方法等.运行结果表明,对于常问问题和普遍性的问题,系统有很高的准确率.

... 樊康新^[9]把人们在选购OTC药品过程中产生的海量的问答记录作为数据源,采用基于倒排索引的查找算法、基于知网的语义相似度判别等技术,设计实现了一个OTC问答系统 ...

0.0

1.073

. , 2011(9):83-87

Design and Implementation for FAQ-based Question Answering System

College of Information Engineering, North China University of Technology, Beijing 100144, China

This paper aims to construct FAQ-based question answering system for the book publishing,and both question indexing and retrieval problems are involved. In the question indexing phase, the part-of-speech tagging and semantic class based shallow technologies are used. In the question retrieval phase, vector space model and semantic analyzing based similarity methods are performed. Finally,the question answering system is implemented.

针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。

... 张梅等^[10]把国家新闻出版署实名申领系统使用手册中的FAQ作为数据源来构建问答系统,以免去答案抽取步骤而着眼于讨论问句索引与检索等问题 ...

1992

0.632

0.193

... Zhou^[11]认为两个系统的相似应表现为构成系统的各要素间相似状态,且系统相似度取值的主要因素包括各自组成要素的个数、系统与各级子系统的要素构成、要素的权重、相似元及其相似度等 ...

0.0

1.073

. , 2011(4):52-57

Research on the Detection of Sudden Events in News Stories of Online Information

Depatment of Informatics, East China Normal University, Shanghai 200241, China

Focusing on how to capture sudden events timely and accurately, this paper introduces an idea of the Distance between two Segmental Words(DSW), and devises a model for detecting the sudden events in Internet news. This model mainly comprises two parts, as generating the Hot Element of Terms(HET) and detecting new words. Specifically, it uses the improved TF-PDF algorithm for capturing the Element of Terms(ET),which concerns to generate the Hot Element of Terms, and seeks the status quo of distribution among these terms based on the Distance between two Segmental Words, then with the relatively stable combination among these terms to achieve event detection. Experiment shows that the model has a high sensitivity on detecting the sudden events.

为及时、准确地捕获突发事件,提出词间距的思想,并构建基于互联网新闻报道的突发事件识别模型。该模型主要包括热点词元发现和新词语检测两部分,即通过改进的TF-PDF算法捕获当前关注的词元以形成热点词元,利用词间距来寻找热点词元之间的客观分布状态,从而依据热点词元之间相对稳定的组合达到突发事件识别的目的。实验表明该模型对突发事件的识别,在时间上有着较高的敏感性。

... 本文在构建突发事件识别模型活动中,发现可以利用表征突发事件的系列词语的语言学特性及它们之间距离远近的客观分布状态来加以识别^[12],即把一个个彼此独立的能够描述事件的词语依次导入时段内的新闻报道中,统计它们出现的先后位置信息,继而寻找它们之间是否存在着依赖关系及其相对稳定的近邻现象,并根据这种近邻现象实现新词语检测和发现新事件 ...

2012

0.0

0.61

... 如段利国等^[13]就通过抓取百度知道平台的问答构建了一个问答系统 ...

2012

0.0

... 4 应用实例与分析为了有效解决读者在利用图书馆时遇到的各类问题,华东师范大学图书馆^[14]提供当面咨询、电话咨询、网络表单咨询、在线实时咨询、邮件咨询等服务方式 ...

2012

4.826

0.0

. 2012, :- DOI:10.1016/j.aca.2011.10.053

ecnu.edu

Department of Chemistry, East China Normal University, Shanghai 200062, PR China

In this paper, we report a novel and sensitive optical sensing protocol for thrombin detection based on magnetic nanoparticles (MNPs) and thrombin aptamer, employing split HRP-mimicking DNAzyme halves as its sensing element, which can catalyze the H 2 O 2 -mediated oxidation of the colorless ABTS into a blue-green product. A single nucleotide containing the recognition element and sensing element is utilized in our protocol. The specific recognition of thrombin and its aptamer leads to the structure deformation of the DNA strands and causes the split of the DNAzyme halves. Therefore, the decrease of absorption spectra can be recorded by the UV–visible Spectrophotometer. DNA-coated MNPs are utilized to separate the interferential materials from the analyst, thus making this assay can be applied in the detection of thrombin in complex samples, such as human plasma. This original, sensitive and cost-effective assay showed favorable recognition for thrombin. The absorbance signals with the concentration of thrombin over a range from 0.5 to 20 nM and the detection limit of thrombin was 0.5 nM. The controlled experiments showed that thrombin signal was not interfered in the presence of other co-existence proteins.

... 此外,该馆自2012年1月4日启用CALIS虚拟参考咨询系统至今(2012年2月28日),共收到48个问题,已解决35个问题^[15] ...