数据分析与知识发现, 2020, 4(5): 75-83 doi: 10.11925/infotech.2096-3467.2019.0974

研究论文

中药成分相似性量化建模及寒热药性预测分析*

魏国辉1,2, 张丰聪1, 付先军1, 王振国,,1

1山东中医药大学中医药经典理论教育部重点实验室 济南 250355

2山东中医药大学理工学院 济南 250355

Similarity Measurement of Traditional Chinese Medicine Components for Cold-hot Nature Discrimination

Wei Guohui1,2, Zhang Fengcong1, Fu Xianjun1, Wang Zhenguo,,1

1Key Laboratory of Theory of TCM, Ministry of Education of China, Shandong University of Traditional Chinese Medicine, Jinan 250355, China

2School of Science and Engineering, Shandong University of Traditional Chinese Medicine, Jinan 250355, China

通讯作者: 王振国,ORCID:0000-0001-7105-4071,E-mail:zhenguow@126.com

收稿日期: 2019-08-26   修回日期: 2019-12-21   网络出版日期: 2020-05-25

基金资助: *本文系国家自然科学基金项目“基于‘性-构’关系的中药成分寒热药性评价”.  81473369
山东省高等学校青年创新团队人才引育计划项目:中医经典名方防治抑郁症创新团队的研究成果之一.  2019RCS202

Received: 2019-08-26   Revised: 2019-12-21   Online: 2020-05-25

摘要

【目的】 量化中药成分的相似性,并探索建立中药寒热药性的判别模型与方法。【方法】 依据“物质成分相似的中药,其药性也相似”的理论,通过紫外图谱表征中药成分。利用已有的61味中药的紫外图谱数据集,根据中药药性数据的高维、复杂性和多元性,通过距离度量学习算法学习马氏距离度量紫外图谱的相似性,结合集成学习中的多数投票算法,构建符合中医药特色的中药寒热药性预测识别模型。通过交叉验证、外推预测等方式评价模型。【结果】 基于紫外图谱相似性度量的预测模型,石油醚溶剂下,交叉验证和外推预测的ROC曲线下的面积分别为0.883、0.866,交叉验证和外推预测的准确率分别为0.754、0.776,多溶剂综合分析下,交叉验证和外推预测的准确率分别为0.672、0.686。【局限】 中药化学成分提取的复杂性造成本研究的数据量较小。【结论】 本文构建的预测模型对石油醚溶剂下的紫外图谱数据识别效果最好;与经典模型相比较,本文模型具有更好的预测稳定性和外推性;经实验验证,预测模型可行有效。

关键词: 中药药性 ; 相似性 ; 马氏距离 ; 紫外光谱 ; 预测模型

Abstract

[Objective] This paper tries to measure the similarity of traditional Chinese medicine components, and then establish a discriminant method for their cold and hot natures.[Methods] Traditional Chinese medicines with similar compositions have similar medicinal properties. Therefore, we used ultraviolet spectra to characterize their components and retrieved the UV spectrum data of 61 traditional Chinese medicines. Then, we used the Mahalanobis distance to measure the similarities of these UV spectrum data. Finally, we constructed a prediction and recognition model for cold and hot natures based on the majority voting algorithm.[Results] We evaluated the proposed model with cross validation and extrapolation techniques. With the solvent of petroleum ether, areas under the ROC curve of cross validation and extrapolated prediction were 0.883 and 0.866. Predictive accuracies of cross validation and extrapolated prediction were 0.754 and 0.776. With multi-solvent comprehensive analysis, the accuracies of cross validation and extrapolation were 0.672 and 0.686.[Limitations] The data size of our study needs to be expanded.[Conclusions] The proposed model could effectively identify ultraviolet spectrum of traditional Chinese medicine components.

Keywords: Nature of Chinese Traditional Medicines ; Similarity ; Mahalanobis Distance ; Ultraviolet Spectrum ; Predictive Model

PDF (809KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

魏国辉, 张丰聪, 付先军, 王振国. 中药成分相似性量化建模及寒热药性预测分析*. 数据分析与知识发现[J], 2020, 4(5): 75-83 doi:10.11925/infotech.2096-3467.2019.0974

Wei Guohui, Zhang Fengcong, Fu Xianjun, Wang Zhenguo. Similarity Measurement of Traditional Chinese Medicine Components for Cold-hot Nature Discrimination. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 75-83 doi:10.11925/infotech.2096-3467.2019.0974

1 引言

作为传统中医药的核心理论之一,中药药性理论在近年来得到了广泛的探索与研究[1,2,3]。中药药性理论将中药分为温、热、寒、凉四性,温与热、凉与寒只有程度的不同而没有本质的区别,因此,四性可以归纳为寒热两性。寒热药性是中药药性理论的重要组成部分,“寒者热之,热者寒之”表明中药的寒热辩证是中医治疗的重要依据,对指导中医临床用药具有重要意义。相关研究指出:药效决定了中药的寒热药性,而药效的基础是其所含物质成分,因此,物质成分是产生中药药性的基础[4]。现代中药药性研究重点聚焦于中药寒热药性与物质成分相关关系的研究。

相似性度量是推荐算法的关键技术之一,通过计算样本间的相似性,在已有数据库中寻找和未知样本具有相似属性的样本,可以根据检索到的样本的属性对未知样本进行评估与判断[5]。相似性度量包含两个重要组成部分:样本属性的特征表示和相似性的表征。样本属性的特征表示是一个重要的科学问题,特征表示的关键意义在于一方面降低样本属性的维度,即降低计算复杂度,另一方面则是提取表征样本属性的关键因素。相似性的表征中非常重要的一种度量为距离度量,比如欧氏距离、马氏距离等。因此,设计高效、高准确率的相似性度量算法吸引了研究者的广泛关注。

2 相关研究

中药药性理论,尤其是寒、热药性理论是几千年来中医临床用药的经验总结。正确判别中药的寒、热药性对指导中医临床用药具有十分重要的作用。随着人工智能、机器学习的发展,基于人工智能的中药药性判别成为研究热点。中药药性判别主要包含两方面的内容:一是如何表征中药;二是如何判别中药寒、热药性。中药的表征一直是研究的热点,取得了大量的成果,主要包括:中药微量元素含量[6]、中药物象属性[7]、代谢组学[8]、中药化学指纹图谱和中药化合物。王振国团队[6]研究发现无机元素的种类及含量与中药寒热药性密切相关。薛付忠团队[9,10,11]分析了《中华本草》收录的1 728种药性明确的植物药材,使用150种属性表征其特征,并构建分类模型预测中药寒热性。聂斌等[8]探索使用代谢组学数据表征中药特征,构建随机森林模型预测中药寒热性,取得了较好的预测效果。中药物质成分是产生中药药性的基础,中药化学指纹图谱则被用来分析中药的物质成分组成。李和光[12]将紫外图谱应用于分析中药的物质成分组成,而容蓉等[13]团队则通过高效液相色谱研究不同药性中药的物质成分组成。从化合物的角度讲,中药由若干具有寒热性质的化合物组成,Long等[14]和Fu等[15]使用分子描述符研究中药的化合物成分,构建分类模型识别中药寒热药性。

中药药性判别需要选择理想的分类器,经典分类器包括人工神经网络[9]、偏最小二乘算法[10]、线性判别分析[11]、随机森林[8]、K近邻方法[15]等已经被研究用于构建药性识别模型。此外,相似性度量作为推荐算法的重要组成部分也被应用于构建分类模型。王永等[16]提出将类别属性相似性和相异系数相似性结合构建相似性度量的方法。马氏距离作为一种相似性度量方法,已广泛应用于肿瘤影像等的相似性研究。笔者所在课题组[5]应用马氏距离度量肺结节医学影像的相似性,提出结合语义相似和视觉相似的相似性度量方法。

虽然中药的寒热药性预测识别研究较多,但是已有研究都是采用经典的通用的人工智能算法构建预测模型,而不是针对中药特征数据构建专有预测模型,导致预测效果不好。本文重在研究中药寒热药性与物质成分的相关关系,通过多溶剂紫外图谱数据表征中药成分,量化中药成分相似性为距离度量,针对中药药性数据的高维、复杂性和多元性,构建符合中医药数据的人工智能预测模型,对中药数据样本进行预测识别。

3 寒热药性识别模型构建

3.1 中药特征表示

国家“973”项目“中药药性理论相关基础问题研究”提出“性-效-物质三元论”假说,指出产生药性的基础是中药物质成分。如何通过物理、化学技术方法提取中药物质成分特性表征中药成为当前研究的重点[4]

虽然物象属性、代谢组学被用于表征中药和判别中药药性,但是都没有从中药的物质基础研究中药药性。中药化学指纹图谱技术则可以提取中药药物内复杂物质群中的多种化学成分特性。中药指纹图谱具有特征性、专属性、可量化性、稳定性、有效性、完整性及细节处理的模糊性等特点,在中药材真伪鉴别、质量评价等方面已取得了大量成果。因此,在本研究中中药指纹图谱被用于表征中药物质成分特征。中药指纹图谱提取方法如下:首先,将61味中药材粉碎,置入50 ml的蒸馏水、无水乙醇、氯仿和石油醚溶剂中;其次,在中药材溶液中,通过室温超声45分钟浸提;最后,在紫外波长400 nm-190 nm,狭缝为1 nm,测量61味中药的吸收度值。详细提取方法参见文献[12]。

3.2 中药成分相似性量化建模

依据假说:物质成分相似的中药,药性也是相似的。通过量化中药成分的相似性,探索中药寒热药性的判别方法,研究中药物质成分和中药药性的相关关系。相似性度量已广泛应用于肿瘤之间的相似性计算[5]以及化学指纹图谱如光谱、色谱的相似性测量[17]。通过相似性度量可以在已有数据库中寻找和未知样本特性相似的样本集,然后根据相似样本的特性分析未知样本的特性,从而为研究者提供参考。

相似性度量方法中,欧氏距离认为特征向量中的每个变量对于欧氏距离的贡献是相同的,表示特征向量之间的平均几何距离。而马氏距离是根据特征向量中每个变量的方差来评估变量之间的距离,方差较大的变量在马氏距离计算中具有较大的贡献。在实际应用中,特征向量中的每一个变量的贡献是不同的,尤其是在中药的各种成分中,有的组成成分对于药性的贡献较大,而有的成分对于药性的贡献较弱甚至没有贡献,为了区别对待不同中药成分对于药性的贡献,本文选用马氏距离。

中药紫外指纹图谱数据在一定程度上反映了中药物质成分特性。本研究采用马氏距离计算不同中药紫外吸收曲线的相似性。马氏距离越小,表明曲线越相似,则对应中药的物质成分越相似,那么中药的寒热性可能就是相同的。

本文将中药成分相似定义为语义相关,即两个样本具有相同的药性则认为两个样本是语义相关的。从距离度量的角度来讲,语义相关要求在整体上相同药性的中药图谱的距离越近越好,不同药性的中药图谱的距离越远越好。定义数据集 C={x1,x2,,xn}, n是样本个数, xiRm是一个具有 m维向量的样本,则任意两个样本 xixj之间的马氏距离定义如公式(1)[5]所示。

dM(xi,xj)=||AT(xi-xj)||

根据公式(1),马氏距离相当于欧氏空间中样本距离的数据变换,计算任意样本之间的马氏距离需要学习变换矩阵 A。根据成对约束(Pairwise Constraints)的定义[18],将样本集分为两部分,一是等值约束数据集,定义为: S={(xi,xj)|xixj具有相同的药性};二是非等值约束数据集,定义为: D={(xi,xj)|xixj具有不同的药性}。

定义 yi=ATxi是样本 xi通过变换矩阵 A得到的新空间的特征表示。在原始样本映射到新的空间后,在新空间中,要求相同药性的中药图谱样本距离越近越好[18]。因此,等值约束数据集 S中所有相同药性样本对满足公式(2)。

$A=argmin(\sum_{(x_{i},x_{j})∈S}(y_{i}-y_{j})^{2})\\ =argmin\ tr(\sum_{(x_{i},x_{j})∈S}(A^{T}x_{i}-A^{T}x_{j})^{2})\\ =argmin\ tr(A^{T}\sum_{(x_{i},x_{j})∈S}(x_{i}-x_{j})(x_{i}-x_{j})^{T}A)$

在新空间中,要求不同药性的中药图谱样本距离越远越好[18]。因此,非等值约束数据集中所有不相同药性样本对满足公式(3)。

$A=argmin(\sum_{(x_{i},x_{j})∈D}(y_{i}-y_{j})^{2})\\ =argmin\ tr(\sum_{(x_{i},x_{j})∈D}(A^{T}x_{i}-A^{T}x_{j})^{2})\\ =argmin\ tr(A^{T}\sum_{(x_{i},x_{j})∈D}(x_{i}-x_{j})(x_{i}-x_{j})^{T}A)$

合并公式(2)和公式(3),可得公式(4)。其中, λ是一个均衡参数。

$A=argmin\ tr(A^{T}[\sum_{(x_{i},x_{j})∈D}(x_{i}-x_{j})(x_{i}-x_{j})^{T}\\ -\lambda \sum_{(x_{i},x_{j})∈S}(x_{i}-x_{j})(x_{i}-x_{j})^{T}]A)\\ s.t.A^{T}A=I$

公式(4)表示将原始空间中的样本映射到新的特征空间后,相同药性的中药图谱样本距离越近越好,而不同药性的中药图谱样本距离越远越好。满足这样要求的变换矩阵 A可以用于计算马氏距离。公式(4)是一个最优化求解问题,添加正交变换约束 ATA=I,矩阵 A可以通过公式(4)的特征值分解求得。最优解 A*由最大 k个特征值对应的 A特征向量构建。进而根据公式(1),求得任意两个样本之间的马氏距离。

3.3 多溶剂寒热药性预测模型

单溶剂中药紫外指纹图谱并不能完整表征中药物质成分,因此,多溶剂紫外指纹图谱技术被用来综合表征中药物质成分,从而有利于充分反映中药的物质基础。因此,本研究首先根据单一溶剂,使用距离度量学习算法计算得到的马氏距离来度量紫外图谱的相似性,并计算该未知中药药性的预测概率值,然后通过集成学习算法将多个预测结果进行融合,构建基于中药成分相似性度量的寒热药性预测模型。模型构建过程如下:

(1)对于每一种溶剂的中药指纹图谱,由距离度量学习算法学习最优马氏距离度量,计算药性未知中药与数据库中药性已知中药的马氏距离,寻找中药成分相似的中药样本。

(2)按照马氏距离由小到大排列,筛查成分最相似的 K味参考中药材。这 K味参考中药对应马氏距离最小的 K味中药。统计 K味参考中药材中寒性中药的数量 N,寒性概率值 p被用来评估未知中药的寒性程度,计算如公式(5)所示。

p=NK

设定阈值为0.5,如果 p值大于0.5,认定该中药为寒性(标签为0);否则认定该中药为热性(标签为1)。

(3)每一种溶剂可以计算得到该中药的一个寒热药性标签。同时根据公式(5)获得寒性概率值,通过集成学习中的多数投票算法[19],确定该中药的药性。多数投票算法如公式(6)所示。

H(X)=0,ifi=1mhij(x)>0.5k=1Ri=1mhik(x);1,otherwise

其中, m为溶剂数, R为药性类别数。 hik(x)为样本 x通过基学习器 hi(x)在寒性类别 k上的输出(即药性概率值), j为寒性类。本研究包含4种溶剂和寒热两种类别, 0.5k=1Ri=1mhik(x)=2

中药寒热药性预测算法如下:

输入:中药紫外图谱样本集 X=[X1,X2,,Xm], Xi为第 i种溶剂的紫外图谱数据,溶剂数 m=4Xi=[xi1,xi2,,xin]Rd×n, n为样本个数, d为样本维度,寒热药性类别数 c=2

输出:中药寒热药性预测结果。

①对公式(4)进行特征值分解,获取最大的k个特征值及对应的特征向量,构建最优变换矩阵 A*

②根据公式(1)计算测试集样本和训练集样本之间对应的4种溶剂的马氏距离矩阵 dm

③根据得到的马氏距离计算训练集中最相似的 K味中药,根据公式(5)计算该4种溶剂对应的该中药的寒性概率及寒热药性标签。

④根据公式(6)对4种溶剂的寒性概率进行融合,通过集成学习多数投票方法最终确定药性。

4 实证研究

4.1 数据来源

本研究的紫外图谱数据来自于973项目“中药药性理论相关基础问题研究”,该项目从《神农本草经》、《新修本草》等权威书籍收录的中药材中选择药性明确且具有代表性的61味药物[20],包括31味热性药、30味寒性药,如表1所示。采用不同溶剂(氯仿、蒸馏水、无水乙醇、石油醚)的紫外光谱技术,得到中药紫外光谱数据库。项目测量了61味中药在紫外波长400 nm-190 nm的吸收度值,图1显示了中药地肤子的紫外吸收曲线。

图1

图1   地肤子(溶剂石油醚)不同波长的吸收曲线

Fig.1   The UV Absorption Curve of Kochiae Fructus with Petroleum Ether Solvent


表1   研究使用的61味中药(括号中为药性)

Table 1  61 Traditional Chinese Medicines

序号中药序号中药序号中药
1薄荷(寒)21毛知母(寒)41附子(热)
2侧柏(寒)22墨旱莲 (寒)42甘松(热)
3柴胡(寒)23蒲公英(寒)43干姜(热)
4车前子(寒)24秦皮(寒)44高良姜(热)
5川贝母(寒)25瞿麦(寒)45藁本(热)
6大黄(寒)26生地黄(寒)46红花(热)
7大青叶(寒)27天冬(寒)47厚朴(热)
8淡竹叶(寒)28豨茜草(寒)48麻黄(热)
9地肤子(寒)29栀子(寒)49木瓜(热)
10防己(寒)30紫草(寒)50木香(热)
11甘遂(寒)31白胡椒(热)51羌活(热)
12葛根(寒)32白芥子(热)52肉桂(热)
13瓜蒌(寒)33半夏(热)53檀香(热)
14海藻(寒)34荜茇(热)54天南星(热)
15黄柏(寒)35补骨脂(热)55威灵仙(热)
16黄连(寒)36苍术(热)56吴茱萸(热)
17金银花(寒)37草豆蔻(热)57细辛(热)
18龙胆(寒)38陈皮(热)58仙茅(热)
19芦荟(寒)39川芎(热)59延胡索(热)
20络石藤(寒)40杜仲(热)60淫羊藿(热)
61炙延胡索(热)

新窗口打开| 下载CSV


4.2 模型评价

(1) 模型的稳定性评价

采用交叉验证的留一法[21]评价模型判别的稳定性。详细步骤如下:

①对于61味中药的紫外图谱数据,选择其中一味中药样本作为测试集,其他60味作为训练集,将测试集数据在训练集中进行相似性搜索,寻找紫外图谱最相似的 K味中药,然后计算测试集数据的寒性概率值;

②重复上述过程,直到每一味中药都计算得到寒性概率值。这样,每种溶剂的指纹图谱获得61个寒性概率值及该中药的61个标签;

③对于单一溶剂,这些寒性概率值可以用来绘制受试者特征曲线(ROC曲线),61个标签可以用来计算模型的预测准确率(Accuracy, ACC)。

计算ROC曲线下的面积(Area under the ROC curve, AUC),面积越大,模型越稳定。对于药性的多溶剂综合分析,则需要通过集成学习分析中药的寒性概率值,计算中药的药性标签,并根据预测准确率评估模型。预测准确率ACC的计算如公式(7)所示。

ACC=j=1Nδ(tj==yj)N

其中, tj是计算得到的第 j个中药的药性标签, yj是对应的第 j个中药的真实药性标签。 δ(x)是一个函数,满足:如果 x为真, δ(x)=1,否则 δ(x)=0

(2) 模型的外推评价

将61味中药随机划分为训练集和测试集,其中训练集含中药40味(寒性药和热性药各约20味),测试集含中药21味。由测试集样本到训练集中搜索最相似的 K味中药,计算测试集中药样本每种溶剂对应的寒性概率及中药药性标签。对于单溶剂,可以计算ROC曲线下的面积AUC和预测准确率ACC。对于多溶剂,则根据集成学习算法计算预测准确率。预测准确率越高,外推性能越好。

4.3 模型建立

在模型建立的过程中,需要设置参数 λ(均衡参数)和参数 K(搜索出的最相似中药的味数),石油醚溶剂指纹图谱被作为研究对象。设定 λ取值范围为{10-3,10-2,10-1,1,10,102,103},稳定性评价中的留一法被用于测试参数 λ,图2(a)显示了 λ取不同值时对应的预测准确率,可以看出 λ取1时,模型预测准确率最高;设定 K为{3,5,7,10,12,15,20},图2(b)显示了对应于不同 K的模型稳定性评估,从整体性能来看,当 K取7时,模型的预测效果最好。

图2

图2   对应不同的λK值的模型ACC值

Fig.2   ACC Values with Different λ and K


4.4 不同溶剂下紫外图谱的药性识别比较

将不同溶剂(氯仿、蒸馏水、无水乙醇、石油醚)下的紫外图谱数据代入构建的预测模型中,分析不同溶剂下紫外光谱技术对药性识别的影响。图3显示了4种溶剂下紫外图谱数据药性识别的ROC曲线。表2显示了4种溶剂下的中药药性识别的ROC曲线下面积和预测准确率。可以看出,石油醚溶剂下的紫外图谱数据可以更好地识别中药药性,石油醚溶剂下的ROC曲线面积达到0.883,预测准确率达到0.754。氯仿和蒸馏水溶剂下的ROC曲线面积接近,但是蒸馏水溶剂下模型的预测准确率高于氯仿。而无水乙醇溶剂下的中药药性识别率最低,ROC曲线下的面积只有0.673,预测准确率仅0.510。无水乙醇溶剂下的数据已经无法作为特征数据单独用于识别中药药性。

图3

图3   4种溶剂下紫外光谱药性识别的ROC曲线

Fig.3   The ROC Values of UV Nature Identification with Four Solvents


表2   4种溶剂下的中药药性识别的AUC和ACC

Table 2  AUC and ACC Values of Chinese Medicine Nature Identification with Four Solvents

溶剂AUCACC
无水乙醇0.6730.510
氯仿0.7590.602
蒸馏水0.7520.675
石油醚0.8830.754

新窗口打开| 下载CSV


4.5 模型稳定性比较

为了验证该预测模型对于识别中药药性的可行性和稳定性,设计实验对提出的预测模型的识别性能和已有预测中药药性的分类器或经典分类器的识别性能进行比较:人工神经网络(ANN)[9];支持向量机(SVM)[14];极限学习机(ELM)[22]

实验执行前,部分参数需要优化以提升预测性能。在真实实验中,极限学习机的隐藏节点的个数不能是无限的,测试隐藏节点个数的范围为:{200,400,600,800,1 000}。当隐藏节点设置为800时,极限学习机的预测性能最好。5折交叉验证被用于优化支持向量机的参数。每次4折数据被用于训练支持向量机,1折数据被用于测试。最优的惩罚因子c=3和核函数参数g=0.053 12将被用于后续的实验。

根据4.4节的研究结果,石油醚溶剂下模型的药性识别性能最好,而无水乙醇溶剂下的中药药性识别率最低,无水乙醇溶剂下的指纹图谱无法单独用于识别中药药性。基于石油醚单溶剂的模型稳定性比较结果如表3所示,可以看出,本文模型的稳定性和预测识别性能优于已有的经典预测模型。

表3   单溶剂模型稳定性比较

Table 3  Stability Comparison of Single Solvent Models

分类算法AUCACC
人工神经网络0.6630.590
支持向量机0.7950.738
极限学习机0.5870.525
本文模型0.8830.754

新窗口打开| 下载CSV


但是单溶剂并不能完全表征中药成分,因此,剔除无水乙醇溶剂下的指纹图谱数据,将石油醚、氯仿和蒸馏水溶剂下的指纹图谱作为研究对象,融合三种溶剂预测未知中药的药性。实验结果如表4所示,可以看出,本文模型的稳定性和预测识别性能优于已有的经典预测模型。同时也可以看到,在融合多种溶剂后,预测准确率低于单一溶剂中的石油醚溶剂,这可能是由于某些溶剂对中药成分的提取无法准确反映中药药性。

表4   多溶剂模型稳定性比较

Table 4  Stability Comparison of Multiple Solvent Models

分类算法ACC
人工神经网络0.560
支持向量机0.623
极限学习机0.506
本文模型0.672

新窗口打开| 下载CSV


4.6 模型外推比较

本研究对模型的外推性能进行评价,每次实验随机选取40味中药作为训练集,其中寒性药和热性药各约20味,其余为测试集。实验重复10次,实验结果取10次实验的均值和方差。基于单溶剂石油醚的模型外推比较结果如表5所示。基于多溶剂的模型外推比较结果如表6所示。根据表5实验结果,本文模型的外推性能显著优于比较的模型。该外推结果和表3中的稳定性实验结果是一致的。从表6的实验结果可以看出多溶剂下模型的外推结果与稳定性结果是一致的,也证明了本文模型的可行性。

表5   单溶剂模型外推比较

Table 5  Comparison of Single Solvent Models

分类算法AUCACC
人工神经网络0.650±0.090.620±0.01
支持向量机0.790±0.090.695±0.09
极限学习机0.676±0.090.605±0.06
本文模型0.866±0.030.776±0.08

新窗口打开| 下载CSV


表6   多溶剂模型外推比较

Table 6  Comparison of Multiple Solvent Models

分类算法ACC
人工神经网络0.590±0.04
支持向量机0.673±0.09
极限学习机0.578±0.06
本文模型0.686±0.06

新窗口打开| 下载CSV


4.7 中药总体预测识别

本研究使用留一法评估提出模型的总体分类性能,阈值设置为0.5。表7列出了预测61味中药药性的混淆矩阵,其中有8味寒性药被错分为热性药,而有7味热性药被错分为寒性药,总体分类精度为75.4%(46/61)。表8列出了中药药性预测识别的召回率、精确率和F值。根据实验结果,本文模型对该61味中药具有较好的预测识别性能。

表7   61味中药药性预测的混淆矩阵

Table 7  Confusion Matrix of Nature Prediction of 61 Chinese Medicines

真实值

预测值
寒性药热性药
寒性药228
热性药724

新窗口打开| 下载CSV


表8   61味中药药性预测的召回率、精确率和F值

Table 8  The Performance of Nature Prediction of 61 Chinese Medicines

指标寒性药热性药
召回率0.7330.774
精确率0.7580.750
F值0.7450.762

新窗口打开| 下载CSV


5 结语

本文将中药成分的相似性量化为马氏距离,提出一个符合中医药特色的寒热药性预测模型,并通过实验验证该模型能够较好地预测中药的寒热药性。61味中药数据来自于已有研究的400 nm-190 nm的紫外图谱数据。不同于以往的研究单纯训练经典预测模型,本文根据中药的紫外图谱曲线特点,提出基于紫外图谱相似性的中药寒热药性预测模型,该模型更加符合中药药性数据特点,可以更好地预测中药的寒热药性。

本文研究也存在一些局限。首先,中药数据集仅包含61味中药,这对于训练人工智能分类器来说是不够的,因此增加数据集样本数是后续的一个研究方向。而样本的维度则达到211维,这是典型的高维度、小样本数据,根据这些样本数据的特点探索先进人工智能分类模型也是未来研究的方向。其次,本研究模型建立过程中采用搜索法选择最优参数,该参数是由经验确定的,而不是根据模型自身特点来确定参数。因此,未来可以设计一种自适应的优化算法寻找最优参数。最后,本研究利用多溶剂紫外指纹图谱分析中药的成分组成,而没有考虑其他指纹图谱技术。中药是化学物的复杂混合体,单纯使用一种图谱可能无法完全反映中药成分的整体组成。探索多种图谱技术联合判别中药药性是未来研究的方向。

作者贡献声明

魏国辉: 设计研究方案, 算法设计, 论文起草;

张丰聪,付先军:紫外图谱数据处理;

王振国: 提出研究思路, 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: bmie530@163.com。

[1] 魏国辉. UV Fingerprint Dataset.xlsx. 中药指纹图谱数据集.

[2] 魏国辉. trainset.xlsx, test.xlsx. 训练集、测试集.

[3] 魏国辉. Result.fig. 结果验证图片.

参考文献

Chan K.

Progress in Traditional Chinese Medicine

[J]. Trends in Pharmacological Sciences, 1995,16(6):182-187.

[本文引用: 1]

Ung C Y, Li H, Cao Z W, et al.

Are Herb-pairs of Traditional Chinese Medicine Distinguishable from Others? Pattern Analysis and Artificial Intelligence Classification Study of Traditionally Defined Herbal Properties

[J]. Journal of Ethnopharmacology, 2007,111(2):371-377.

[本文引用: 1]

欧阳兵, 王振国, 李峰, .

中药四性“性-效-物质三元论”假说及其论证

[J]. 山东中医药大学学报, 2008,32(3):182-183.

[本文引用: 1]

( Ouyang Bing, Wang Zhenguo, Li Feng, et al.

The Hypojournal and Demonstration of the “Tri-element of Property-effect-material” of Four Nature of Traditional Chinese Medicine

[J]. Journal of Shandong University of Traditional Chinese Medicine, 2008,32(3):182-183.)

[本文引用: 1]

王振国, 王鹏, 欧阳兵.

中药物质成分与寒热药性相关性研究的方法学框架

[J]. 浙江中医药大学学报, 2009,33(5):734-737.

[本文引用: 2]

( Wang Zhenguo, Wang Peng, Ouyang Bing.

Methodological Frame of Relativity Research on TCM Substance Component and Drug Nature of Cold and Hot

[J]. Journal of Zhejiang University of Traditional Chinese Medicine, 2009,33(5):734-737.)

[本文引用: 2]

魏国辉, 齐守良, 钱唯, .

基于相似性度量的肺结节图像检索算法

[J]. 东北大学学报:自然科学版, 2018,39(9):1226-1231.

[本文引用: 4]

( Wei Guohui, Qi Shouliang, Qian Wei, et al.

Image Retrieval Algorithm of Pulmonary Nodules Based on Similarity Measurement

[J]. Journal of Northeastern University:Natural Science, 2018,39(9):1226-1231.)

[本文引用: 4]

杨波, 王振国.

植物类中药寒热药性与无机元素相关性研究

[J]. 南京中医药大学学报, 2011,27(2):109-111.

[本文引用: 2]

( Yang Bo, Wang Zhenguo.

Literature Study on Relationship Between Cold-Heat Nature of Plant-Based Chinese Herbs and Inorganic Elements

[J]. Journal of Nanjing University of Traditional Chinese Medicine, 2011,27(2):109-111.)

[本文引用: 2]

谢欢欢, 陈晨, 王鹏.

基于科属分类下的中药物象-药性相关性研究概述

[J]. 中华中医药杂志, 2017,32(8):3620-3622.

[本文引用: 1]

( Xie Huanhuan, Chen Chen, Wang Peng.

Study Review of Correlation Between Object Image and Nature of Traditional Chinese Medicine Based on Family and Genus Classification

[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2017,32(8):3620-3622.)

[本文引用: 1]

聂斌, 郝竹林, 桂宝, .

基于随机森林的中药寒、热药性代谢组学判别方法研究

[J]. 江西中医药大学学报, 2015,27(2):82-86.

[本文引用: 3]

( Nie Bin, Hao Zhulin, Gui Bao, et al.

The Research for Metabolomics Discriminant Method for Cold and Hot Property of Traditional Chinese Medicine Based on Random Forest

[J]. Journal of Jiangxi University of Traditional Chinese Medicine, 2015,27(2):82-86.)

[本文引用: 3]

李雨, 李骁, 薛付忠, .

基于人工神经网络的中药药性判别研究

[J]. 山东大学学报:医学版, 2011,49(1):57-61.

[本文引用: 3]

( Li Yu, Li Xiao, Xue Fuzhong, et al.

Discrimination of Properties of Chinese Traditional Medicines Based on an Artificial Neural Network

[J]. Journal of Shandong University:Health Sciences, 2011,49(1):57-61.)

[本文引用: 3]

刘文慧, 李雨, 纪玉佳, .

偏最小二乘在中药药性判别中的应用

[J]. 山东大学学报:医学版, 2012,50(1):151-154.

[本文引用: 2]

( Liu Wenhui, Li Yu, Ji Yujia, et al.

Partial Least Squares in the Discrimination of Traditional Chinese Herbal Medicine Property

[J]. Journal of Shandong University: Health Sciences, 2012,50(1):151-154.)

[本文引用: 2]

张新新, 李雨, 纪玉佳, .

主成分-线性判别分析在中药药性识别中的应用

[J]. 山东大学学报:医学版, 2012,50(1):143-146.

[本文引用: 2]

( Zhang Xinxin, Li Yu, Ji Yujia, et al.

Discrimination of Properties of Chinese Traditional Medicine with Principal Component Analysis-linear Discriminant Analysis

[J]. Journal of Shandong University: Health Sciences, 2012,50(1):143-146.)

[本文引用: 2]

李和光.

中药寒热药性物质基础紫外光谱指纹图谱数字化表征体系的构建

[D]. 济南:山东中医药大学, 2010.

[本文引用: 2]

( Li Heguang.

Construction of the Digital Representation System Based on the Ultraviolet Spectrum Fingerprints of the Substantial Basis of Traditional Chinese Medicine (TCM) with Cold-heat Nature

[D]. Jinan: Shandong University of Traditional Chinese Medicine, 2010.)

[本文引用: 2]

容蓉, 邱丽丽, 吕青涛, .

高效液相色谱法优选四味中药的提取方法

[J]. 中成药, 2011,33(4):699-702.

[本文引用: 1]

( Rong Rong, Qiu Lili, Lv Qingtao, et al.

A Research on the Optimization Extraction Methods of Four Traditional Chinese Medicines by HPLC

[J]. Chinese Traditional Patent Medidicine, 2011,33(4):699-702.)

[本文引用: 1]

Long W, Liu P, Xiang J, et al.

A Combination System for Prediction of Chinese Materia Medica Properties

[J]. Computer Methods and Programs in Biomedicine, 2011,101(3):253-264.

[本文引用: 2]

Fu X, Mervin L H, Li X, et al.

Toward Understanding the Cold, Hot, and Neutral Nature of Chinese Medicines Using in Silico Mode-of-Action Analysis

[J]. Journal of Chemical Information and Modeling, 2017,57(3):468-483.

[本文引用: 2]

王永, 王永东, 郭慧芳, .

一种基于离散增量的项目相似性度量方法

[J]. 数据分析与知识发现, 2018,2(5):70-76.

[本文引用: 1]

( Wang Yong, Wang Yongdong, Guo Huifang, et al.

Measuring Item Similarity Based on Increment of Diversity

[J]. Data Analysis and Knowledge Discovery, 2018,2(5):70-76.)

[本文引用: 1]

Christensen J H, Mortensen J, Hansen A B, et al.

Chromatographic Preprocessing of GC-MS Data for Analysis of Complex Chemical Mixtures

[J]. Journal of Chromatography A, 2005,1062(1):113-123.

[本文引用: 1]

Wei G, Cao H, Ma H, et al.

Content-based Image Retrieval for Lung Nodule Classification Using Texture Features and Learned Distance Metric

[J]. Journal of Medical Systems, 2018, 42: Article No. 13.

[本文引用: 3]

艾科, 马国帅, 杨凯凯, .

一种基于集成学习的科研合作者潜力预测分类方法

[J]. 计算机研究与发展, 2019,56(7):1383-1395.

[本文引用: 1]

( Ai Ke, Ma Guoshuai, Yang Kaikai, et al.

A Classification Method of Scientific Collaborator Potential Prediction Based on Ensemble Learning

[J]. Journal of Computer Research and Development, 2019,56(7):1383-1395.)

[本文引用: 1]

刘文慧.

穷举建模策略用于中药药性特征标记的统计模式识别模型研究

[D]. 济南: 山东大学, 2012.

[本文引用: 1]

( Liu Wenhui.

Research on Statistical Pattern Recognition Model for Chmp-markers Using Exausitive Method

[D]. Jinan: Shandong University, 2012.)

[本文引用: 1]

Wei G, Ma H, Qian W, et al.

A Content-based Image Retrieval Scheme for Lung Nodule Classification

[J]. Current Medical Imaging Reviews, 2017,13(2):210-216.

[本文引用: 1]

Malar E, Kandaswamy A, Chakravarthy D, et al.

A Novel Approach for Detection and Classification of Mammographic Microcalcifications Using Wavelet Analysis and Extreme Learning Machine

[J]. Computers in Biology & Medicine, 2012,42(9):898-905.

[本文引用: 1]

/