Data Analysis and Knowledge Discovery  2024, Vol. 8 Issue (5): 151-162    DOI: 10.11925/infotech.2096-3467.2023.0324
Constructing Smart Consulting Q&A System Based on Machine Reading Comprehension
Wang Yihu,Bai Haiyan()
Institute of Scientific and Technical Information of China, Beijing 100038, China
[Objective] This paper aims to improve the smart consulting systems to effectively answer academic questions. [Methods] We utilized deep learning, machine reading comprehension, data augmentation, information retrieval, and semantic similarity techniques to construct datasets and an academic knowledge question-answering system. Additionally, we designed a multi-paragraph recall metric to address the characteristics of academic literature and enhance retrieval accuracy with multidimensional features. [Results] Our new model’s ROUGE-L score reached 0.7338, with a question-answering accuracy of 88.65% and a multi-paragraph recall metric accuracy of 88.38%. [Limitations] We only examined the new model with single-domain content, which may limit the system’s performance in dealing with complex issues involving multiple domains. [Conclusions] The deep integration of machine reading comprehension technology with reference services can enhance the efficiency and sharing of academic resources and provide more comprehensive and accurate information support for researchers.

Key wordsDeep Learning      Machine Reading Comprehension      Smart Consulting Services      Q&A Systems     
Received: 12 April 2023      Published: 08 January 2024
ZTFLH:  TP391  
Fund:Innovation Research Fund Youth Project of Institute of Scientific and Technical Information of China(QN2023-11)
Corresponding Authors: Bai Haiyan,ORCID:0000-0002-9552-3845,E-mail:。   

Wang Yihu, Bai Haiyan. Constructing Smart Consulting Q&A System Based on Machine Reading Comprehension. Data Analysis and Knowledge Discovery, 2024, 8(5): 151-162.

数据集 发布时间 数据来源 问题数据量
WebQA[6] 2016 百度知道 42 000对问题
CMRC 2018[7] 2018 维基百科 20 000对问题
SQuAD-zen[8] 2020 由原始SQuAD数据集翻译 110 000对问题
中医数据集[9] 2020 《黄帝内经翻译版》等文本 13 000对问题
疫情政务数据集[10] 2020 疫情相关政策文档 5 000对问题
Chinese Span-Extraction Datasets
Architecture of the Smart Consulting Q&A System
Example of Question Extraction
问题类型 类型介绍 问题举例 问题数量
事实型问题 此类问题重点关注对事实的提问,例如某种具体病症、药物的介绍,或其性质、成分等。 (1)丙酸倍氯米松是什么
1 203
功能型问题 此类问题着重于药物的功效、作用,或其危害、影响。 (1)静息内皮细胞有什么作用
原理型问题 此类问题重点关注某种病症或药物的具体原理,或其之间存在的关系。 (1)脂联素如何抑制肝脏炎症改变
数据型问题 此类问题包括具体数据问题,例如发病率、灵敏度等;以及归类问题,例如某种病症或药剂分为哪几类等。 (1)肠黏膜屏障可分为几种
Example of Dataset Problem Type
原问题 数据增强备选问题 最终选择
硫酸依替米星肾毒性如何 (1)硫酸依替米星的药理毒性
当散光超过0.75D时患者有什么症状 (1)散光0.75d,有什么症状
钾丢失过多的原因有哪些 (1)钾丢失过多的原因是什么
Example of Data Augmentation Experiment
Framework of Segment Recall System
Training Results of Multivariate Metrics Machine Learning
Paragraph Recall Results
说明 样例
原始文本 使用语言模型来预测下一个词的probability。
分词文本 使用 语言 模型 来 预测 下 一个 词的 probability。
原始掩码输入 使 用 语 言 [MASK] 型 来[MASK] 测 下 一 个 词 的 pro [MASK]##lity 。
全词掩码输入 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。
Example of Whole Word Mask
Example of Data Pre-Processing
RoBERTa 0.693 889 0.629 872 0.709 262
MedBERT 0.689 091 0.624 344 0.704 720
双模型联合 0.718 208 0.650 382 0.733 837
Evaluation Results
类型 原问题 原答案 预测答案
类型1 移植受者会如何造成潜在肝功能损害 受者因基础疾病状态、高强度的放射及化学治疗、复杂用药、移植并发症等造成潜在的肝功能损害。 移植后,受者因基础疾病状态、高强度的放射及化学治疗、复杂用药、移植并发症等造成潜在的肝功能损害。
类型2 蜈蚣的药理作用有什么 蜈蚣具有抗肿瘤、止痉、抗真菌等作用。 蜈蚣具有抗肿瘤、止痉、抗真菌等作用,蜈蚣毒素的主要化学组分有蛋白质、酶、脂肪酸等。
类型3 肠杆菌存在于哪里 肠杆菌素普遍存在于肺炎克雷伯菌中,但由于其能被宿主载脂蛋白2灭活,在感染中几乎不发挥作用。 肠杆菌素普遍存在于肺炎克雷伯菌中。
类型4 lp-pla2有什么功能 Lp-PLA2会产生强化氧化应激反应,损伤血管内膜,并加快动脉粥样硬化的进程,在缺血性脑卒中有着重要的作用。 LP-PLA2在某些情况下具有抗氧化和抗炎功能。
类型5 抗NMDAR抗体脑炎的惊厥症状 在儿童表现最突出,常是儿童就诊的主诉。常成连续发作甚至持续状态,亦可出现亚临床型的癫痫放电。 无法识别。
Example of Training Result Problem Classification
问题类型 RoBERTa MedBERT 双模型联合
类型1 389 376 401
类型2 104 110 109
类型3 72 76 76
类型4 54 60 63
类型5 42 39 12
正确答案总数 565 562 586
总正确率 85.48% 85.02% 88.65%
Training Results
Smart Consulting Q&A System
