数据分析与知识发现  2020, Vol. 4 Issue (10): 14-27
北京大学健康医疗大数据国家研究院 北京 100191
Measuring Uncertainty of Medical Knowledge: A Literature Review
Du Jian()
National Institute of Health Data Science, Peking University, Beijing 100191, China
【目的】 围绕“通过科学文献中有关知识主张的文本语言学特征,测度医学知识的不确定性”这一主题,阐述其理论基础、研究进展及其预期应用场景。【文献范围】 以同时包含“不确定”、“知识/知识单元”、“医学”三方面关键词为规则,以源作Representing Scientific Knowledge: The Role of Uncertainty设置引文追踪。综合采用关键词检索和引文检索,在中英文数据库检索并筛选文献,共筛选得到51篇。【方法】 对文献进行分类述评;对涉及的研究方法、数据来源、核心观点进行归纳梳理。【结果】 理论基础主要包括宏观层面的范式转移理论,以及微观层面的统计学理论,如贝叶斯因果网络。研究进展集中于三个方面:一是识别医学文献中表达不确定性的线索词与语句;二是细粒度、结构化表示医学知识对象;三是针对结构化医学知识测度其来源文本表述的不确定性程度。【局限】 对知识单元的讨论仅限以“数据-信息-知识-智慧”(Data-Information-Knowledge-Wisdom,DIKW)模型为基本范式的情报学、知识工程或人工智能领域。【结论】 医学知识不确定性测度是一个信息计量学与医学信息学交叉研究的新方向。不确定性及其时间演化间接反映知识主张的竞争强度、知识缺口的解决程度和知识确定性的概率,有望促进信息计量学向知识计量学深化,并拓展信息计量学在知识发现、科技评价和人工智能领域潜在的新应用。

关键词 不确定性医学知识信息计量学知识计量学医学文本挖掘    

[Objective] This article reviewed the theory, research progress and potential applications on measuring uncertainty of medical knowledge from scientific publications.[Coverage] We searched PubMed, Web of Science, Microsoft Academic, CNKI, and Wanfang Data for English and Chinese publications with 1) keywords “uncertain* AND knowledge AND *medical” in title, and 2) the cited reference “Representing Scientific Knowledge: The Role of Uncertainty”.[Methods] First, we categorized these literature into computational linguistics and informetrics studies. Then, we summarized their research design, data analytics and conclusions.[Results] The thoughts of paradigm shift and the Bayesian causal networks were the foundation for measuring uncertainty of medical knowledge. Latest developments included: identifying uncertain cues from biomedical literature; extracting structured knowledge from unstructured biomedical texts; and measuring the uncertainty level of scientific text which resulted Subject-Predicate-Object (SPO) triples.[Limitations] Our discussion focused on the Data-Information-Knowledge-Wisdom driven research, such as information science, knowledge engineering and artificial intelligence.[Conclusions] The uncertainty of scientific knowledge and its evolution over time indirectly reflect the strength of competing knowledge claims, the contribution to fill up knowledge gap, as well as the probability of certainty for a given knowledge claim. It will promote the developments of informetrics and knowmetrics, as well as their applications in emerging fields, such as detecting reserch fronts, evaluating academic contributions and improving the efficacy of computable knowledge driven decision support.

Key wordsUncertainty    Medical Knowledge    Informetrics    Knowledge Metrics (Knowmetrics)    Medical Text Mining
收稿日期: 2020-03-20      出版日期: 2020-08-06
ZTFLH:  G350  
通讯作者: 杜建     E-mail:
杜建. 医学知识不确定性测度的进展与展望*[J]. 数据分析与知识发现, 2020, 4(10): 14-27.
Du Jian. Measuring Uncertainty of Medical Knowledge: A Literature Review. Data Analysis and Knowledge Discovery, 2020, 4(10): 14-27.
Fig.1  范式转移程度与知识不确定性程度的关系
作者 代表性工作 主要内容
Vincze等(2008)[15] BioScope语料库 对生物医学出版物中推测性和否定性线索词及其语言描述范围进行标注。
Farkas等(2010)[16] CoNLL-2010共享任务 在维基百科文章和生物医学文献两类自然语言文本中检测模糊修饰词及其语言范围。首先识别含模糊修饰信息的句子,然后识别句子中推测性文本的具体范围。
Thompson等(2011)[17] 用“元知识”的思路对蕴含在文本中的重要事实和科学发现,即生物医学事件进行详细标注 元知识指可从事件的上下文得到的信息。元知识标注方案包含多个维度:①三类确定性程度(猜测的、很可能的、确定的);②两类情感倾向(正向或负向);③6种知识类型(调查类、观察类、分析类、方法类、事实类、其他类)。
Tawfik等(2018)[18] 对生物医学文献摘要中文本蕴含和文本矛盾的检测 以PubMed文献摘要为基础语料,针对临床问题,通过Sentence Embeddings相似度识别潜在答案文本,将答句的提取问题转化为排序问题。然后对答句人工标注正反答案(Yes/No),利用机器学习模型自动识别文本蕴含(一致)或文本矛盾(不一致),以识别矛盾性答句。
Table 1  计算语言学领域识别生物医学不确定性线索及其语言范围的代表性研究
作者 主要发现
Mercer等(2004)[21] 以985篇BioMed Central论文全文为语料,发现与全文文本相比,Hyland总结的模糊修饰词更常出现在引用语句文本中。
Small (2018)[22] 提出模糊修饰率指标,即一篇论文在PubMed Central全文本的所有引用语句中,含最常用的三个模糊修饰词(May、Could、Might)的语句所占的比例。发现方法类论文的模糊修饰率低,即具有较高的确定性,而非方法类论文具有较高的不确定性。
Small等(2019)[23] 总体上论文引用语句的模糊修饰率与其引用语句数量(反映被引次数)呈反比,早期施引者比晚期施引者使用模糊修饰的比率更高。
Small (2019)[24] 通过对比低模糊修饰率和高模糊修饰率论文的引用语句中词语使用的不同,发现高确定性的知识与方法应用和数据获取的词语(如Using,Performed等)相关,而不确定性的知识则与结果解释和表达证据观点的词汇(如Suggest, Evidence等)相关。
Murray等(2019)[5] 基于引用语句测度科学中的分歧(Disagreement)。分歧或不一致,是科学知识不确定性的表现形式之一。通过专家评估构建了能较为准确地表征科学分歧的两个线索词(Contradict、Conflict)和两个过滤词(Studies、Results),且过滤词必须临近在线索词的4词窗口内。
Kilicoglu等(2019)[25] 对临床医学研究文献的引用语句进行情感分析,对引用情感进行分类:正向(与被引临床研究结论一致);负向(与被引临床研究结论不一致);中立(未明确表明一致或不一致)。通过训练机器学习模型,实现自动分类。所用语料为Xu等[26]的标注语料:285篇临床研究文献,共有4 182次引用。其中,正向引用702次,占16.8%;负向引用308次,占7.4%;中立引用3 172次,占75.8%。
Table 2  信息计量学领域测度全文本引用语句中的不确定性的研究
名称 主要团队 主要工作
纳米出版物(Nanopublication)模型 Groth等(2010)[35] 并非专指纳米领域,而是借鉴纳米之义,指具有科学意义的、机器可读的、最小的可出版信息单元。包括三部分:①主-谓-宾三元组表示的科学论断;②出处信息,表示论断的来源,包括提出论断的作者、机构、时间和地点等;③出版信息,关于一个纳米出版物本身的元数据,包括纳米出版物的创建者、创建日期和版本等。
微出版物(Micropublication)模型 Clark等(2014)[36] 将科学文献看作以作者观点为论点,以陈述、声明、数据、方法、材料等作为论据的论证过程,包含支持性论证和反驳性论证。
可计算的生物医学知识组件 Friedman等(2019)[37]; Flynn等(2018)[38] 将人读的知识格式转化为机器可读的格式,包括知识载体、与用户交互的界面及有关知识的详细说明三个部分。进行知识的自动学习和更新,建设学习型健康医疗体系。
Knowlet模型 Mons(2019)[39] Knowlet的主要思想是将所有持相同论断的纳米出版物中共同出现的论断合成一个所谓的“基本论断”,以减少冗余。
Table 3  细粒度、结构化表示知识对象的相关模型
作者 谓语分类 主要规则
Alamri(2016)[42] ①主动/导致类,如AUGMENTS、CAUSES;
Rosemblat等(2019)[43] 构建疾病临床研究方面相反的语义关系对:
Pinto等(2019)[44] ①矛盾性知识(Contradiction):7种谓语,包括“Affects”,“Associated-with”,“Causes”,“Inhibits”,“Prevents”,“Process-Of”,“Treats”;
Table 4  基于三元组中“主宾相同、谓语相反”规则识别矛盾性医学知识的研究
Fig.2  SemMedDB中“句子”和“三元组”两个数据表的基本结构
