多维多息特征数据挖掘方法研究——以中药指纹图谱数据为例
童逸夫, 黄春毅
四川大学公共管理学院 成都 610064
摘要

利用R开源统计分析软件平台,以中药HPLC指纹图谱数据为例,构建多维多息特征数据挖掘模型并进行可视化处理分析,研究结果显示主成分分析降维后的综合主成分能够反映多维多息特征数据的规律,并且验证主成分聚类模型及神经网络模型用于揭示多维多息数据的信息特征的有效性与实用性。最终根据主成分聚类分析结果,建立未知产地川芎样品的产地预测鉴别模型,从而为川芎质量控制提供参考。

关键词: 多维多息; 数据挖掘; 主成分聚类; 神经网络
中图分类号:TP391
Research on Data Mining of Complex Multi-dimensional Fingerprint Data of TCM
Tong Yifu, Huang Chunyi
School of Public Administration, Sichuan University, Chengdu 610064, China
Abstract

Grounded on the R open source statistic environment, this paper builds a data mining model on the complex HPLC multi-dimensional fingerprint data with visualization analysis. The result fully reflects that PCA can be used as a model to reveal the principles of multi-dimensional data, and verifies the validity and practicality of principal component and cluster analysis and neural network to reveal the character of multi-dimensional data. Finally, based on the results of PCA and cluster analysis, this paper builds a training network model through techniques of machine learning and other related statistical algorithm to predict the habitat of unknown TCM sample, which supplies sufficient evidences to the TCM quality control.

Keyword: Multi-dimensional information; Data mining; Principal component and cluster analysis; Neural network

在中药现代化发展进程中,规范中药材质量控制标准是整个战略发展的首要问题。目前国内外已广泛将中药指纹图谱技术应用于鉴别和评价中药材的质量[ 1]。由于HPLC(高效液相色谱法)中药指纹图谱数据多维多息的特征,在对大量实测图谱进行综合分析时,用传统的分析方法不仅费时费力,而且受诸多因素的影响,分析精确度也难以满足要求。数据挖掘技术已经逐渐在中药质量评价工作中得到应用。

本文采用R开源统计软件平台,对川芎指纹图谱多维多息数据进行数据挖掘研究及可视化处理分析。探索运用统计模型和数据挖掘方法对中药指纹图谱中的复杂数据进行分析,揭示其潜在的特征,从中挖掘出有价值的信息,为中药材的鉴别和质量评价提供科学依据。

1 研究背景与研究思路

多维多息中药指纹图谱数据具有专属性、复杂性、模糊性等特征[ 2],其数据的特征提取、相关性分析、可视化处理已成为中药指纹图谱技术的关键和研究前沿。近年来,有关中药指纹图谱的研究多集中在方法的建立上,而针对中药多维多息特征数据处理分析和图谱相似性评价的研究相对较少[ 3, 4]

本文采用HPLC检测(四川大学分析测试中心)来自四川省3个产地的16批次川芎样品(如表1所示)的指纹图谱,通过计算各样品之间的相似度,建立16个川芎样品HPLC指纹图谱数据的共有模式,从指纹图谱中提取出15个共有特征峰,如图1所示。同时,采用R开源统计分析平台,相对于其他同类软件,如SPSS、SAS等而言,R拥有一系列连贯而又完整的数据分析中间工具,且可以对数据直接进行分析及高可视化的图形显示分析。

表1 川芎样品的产地

图1 川芎的HPLC指纹图谱指纹叠加图

在R软件平台上,对16批次不同产地的川芎中药色谱指纹图谱的多维多息特征参数进行主成分聚类分析及三维空间的可视化处理,以判别综合主成分体现不同产地间川芎样品差异的有效性,并根据16批次样本的主成分聚类结果,建立未知样本的产地预测模型,实现对样品产地的预测与鉴别,进一步验证模型用于挖掘多维多息数据整体特征的实用性。

本文的研究思路及步骤如图2所示:

图2 研究思路图

2 基于R平台的多维多息数据分析
2.1 川芎HPLC指纹图谱数据的相似度分析

本文研究首先利用指纹图谱峰面积波动相似性来计算相关系数,对不同产地的16批次样品的HPLC 指纹图谱进行初步分类。以样品DJY1的指纹图谱作为标准图谱,计算其他样品与DJY1样品的相似度,结果如表2所示:

表2 样品指纹图谱峰面积相关系数矩阵

由结果可看出,都江堰产样品间相似度较高,处于0.89-0.92之间,且多数高于0.90,彭州产样品与DJY1指纹图谱的相似度多数处于0.86-0.88之间,而彭山产样品间的相似度差异性较大,多数样品的相似度处于0.84-0.86之间。由指纹图谱的相关系数可以看出,不同产地间的样品指纹图谱相似度存在一定的差异性,因此大体上可以将16批次样本按各自的产地分成3类。

虽然通过指纹图谱的相关系数可以对不同产地样品指纹图谱数据的相似性及类别进行初步评价,但是由结果看出,不同样品数据间相似系数差异性较小,区分度较低,具体的影响因素也无法从中得到判断。因此,为了更仔细地观察到多维多息特征数据间的差异性,本文重点探索利用主成分聚类分析将多维川芎指纹图谱数据投影至低维空间来评价不同产地川芎样品数据之间的细微差异。

2.2 主成分聚类分析区分不同产地样本的差异性

主成分聚类分析是将主成分分析与聚类分析相结合的一种多元统计分析方法。本研究对样本数据进行标准化处理,消除由于数据变换的幅度、范围以及数据分布的非正态性对分析结果的影响。然后在R软件平台上,根据主成分分析原理,利用原始变量的线性组合形成几个综合指标,实现对多维多息指标的降阶处理[ 5]

(1)主成分分析

在R软件平台上,使用scale()函数将原始数据标准化后,再通过 princomp()函数用样本数据的相关矩阵作主成分分析。

根据主成分分析结果,其中前3个主成分的累积贡献率达到90.2%,由碎石图可以看出,保留前3个主成分(Comp.1-Comp.3)能够概括原始数据的绝大部分信息,如图3所示:

图3 主成分分析碎石图

由此,得到前3个主成分关于原始变量的线性方程,如下:

Comp.1*=-0.220A1-0.280A2-0.297A3+0.227A5+0.269A6+0.312A7+0.279A8+0.294A9+0.311A10+0.300A11+0.286A12+0.172A13+0.247A14-0.199A15

Comp.2*=+0.300A1+0.255A2+0.176A4-0.335A5-0.149A7+0.285A8+0.172A10+0.156A11+0.268A12+0.456A13+0.268A14+0.425A15

Comp.3*=-0.142A1 -0.347A3-0.773A4-0.287A5+0.175A6-0.183A7-0.300A9

由以上方程可见:在主成分Comp.3中,A3、A4、A5、A9系数所占的比例最大,因此主成分Comp.3主要体现了多维多息指纹图谱数据中该4种成分的综合指标信息。在主成分Comp.2中,A1、A2、A5、A8、A12、A13、A14、A15系数所占比例最大,因此主成分Comp.2主要体现了该8种成分的综合指标信息。同理,也可以得出主成分Comp.1所代表的9种成分的综合指标信息。

根据主成分分析结果,取16个样本的前3个主成分Comp.1-Comp.3作图,得到16个样本在以3个主成分为坐标轴的三维空间上的投影,如图4所示:

图4 16批次样品在前3个主成分上空间投影图

从Comp.1-Comp.3得分投影图上可以明显看出:都江堰和彭州产地的川芎样品基本处于各自的同一个空间区域里,各自聚为一类,彭山产地的川芎样品间存在一定的差异性,有两个样品与彭州样品较接近,但总体上也聚为一类。

根据三维投影图各样本点的分布,进一步分析16个样本的得分数据,可以得出:

①在第一主成分Comp.1空间上,3个产地的样本得分存在明显差异。第一主成分代表了原始数据中最大部分指标的综合信息,因此该部分特征峰可以将不同产地川芎样本很好地区分开来。

②在第二主成分Comp.2空间上,彭州和彭山样品的得分差异很小,不易区分。都江堰样品与其他两个产地样本有明显差异。通过第二主成分代表的特征峰可以将都江堰样品快速区分出来。

③在第三主成分Comp.3空间上,都江堰和彭州样品的得分差异很小,不易区分。彭山样品有明显差异,通过第三主成分代表特征峰可以将彭山样品区分出来。

综合上述数据分析结果表明:川芎样品在相同的HPLC条件下测定的15个指纹图谱特征峰与其样品的产地有关,且通过主成分分析降维后的综合主成分信息能够反映多维多息数据的特征及规律,可以实现对产地的明显区分。

(2)聚类分析

提取指纹图谱数据的主成分后,再利用川芎样品的主成分得分数据进行系统聚类分析,进一步研究16批次川芎样品之间的关系。在R软件平台中通过cluster()函数选用欧氏距离计算样品间的相似系数,采用McQuitty相似法进行系统聚类,并得到系统聚类的谱系图,如图5所示:

图5 16批次样品聚类分析谱系图

16批样品被分为3类,且样品都被按各自的产地进行聚类,其分类的相似性与差异性验证了主成分分析方法所得出的结果。这进一步说明了主成分聚类模型用于分析多维多息特征数据的有效性与实用性。

3 基于神经网络理论建立产地预测模型

将BP神经网络理论引入本研究,在自适应性、容错性和非线性等方面具有优势,能够有效解决中药指纹图谱数据分析中的非正态、非线性问题[ 6, 7]。在主成分聚类分析的基础上,建立对未知产地样品的预测识别模型。由于中药属性特征与产地类别间相关性呈现复杂的非线性关系,传统线性判别方法无法有效地进行产地预测识别。本文采用误差反向传播网络模型建立预测模型,该模型是一个从输入到输出空间的非线性映射的多层前馈网络,可以通过指导“学习”进行自适应性调整权重值,实现分类及预测。

利用3个产地的川芎16个样品按近似1∶1、2∶1、4∶1的比例分配训练集样本和测试集样本,构建3层BP神经网络。输入层的神经细胞为3个,即以主成分聚类分析中得到的前3个主成分的得分作为输入;输出层神经细胞为3个,即预测的产地,将3个不同产地的样品赋值为“DJY”(都江堰),“PZ”(彭州),“PS”(彭山),作为BP神经网络模型的输出。基于Kolmogorov原理计算得到隐藏层的神经细胞个数的值区域,并根据该区间下不同神经细胞个数的预测误差值的大小,最终确定隐藏层的神经细胞数为6。网络隐藏层和输出层的传递函数采用S(Sigmoid)型函数,节点权重的训练函数采用收敛速度较快的trainlm算法。

利用R平台中神经网络程辑包“nnet”中的nnet()函数,根据样本的3种分配比例方式,对训练集样本进行模型训练,通过调整神经网络模型参数,网络误差设定为0.1,达到误差值时停止训练,得到最优的产地鉴别预测网络模型。在R软件中得到测试集的预测结果如表3所示:

表3 不同分配比例下测试集的产地预测结果

在不同的分配比例下,按本文设定参数的BP神经网络模型对川芎测试集产地的判别正确率均为100%。

利用训练后的优化模型对未知的5个川芎样品(A,B,C,D,E)进行预测,结果如表4所示:

表4 未知川芎样品产地预测结果

样品A、B、C在“DJY”(都江堰)上的值接近于1,说明A、B、C样品取自都江堰。以此类推,D样品对应PZ(彭州),E样品对应PS(彭山)。这与5个样品的真实产地完全相符。所有未知样本都未超出偏差范围,对未知样本预测的正确辨别率为100%。因此,利用该模型计算出的预测值,明显地反映出了产地间的差异性,可以对未知产地的川芎样品的来源进行有效鉴别。

4 结 语

本文以川芎为研究对象,基于R软件平台,采用主成分聚类分析方法,从复杂的多维多息指纹图谱数据中,揭示出药材生理活性成分的特征信息,并将不同产地川芎样品间的差异性,通过可视化技术,呈现在二维和三维空间之中,使其区分方法简单直观。在此基础上,基于BP神经网络理论,建立了产地样品的预测识别模型。通过模型对未知产地的川芎样品进行鉴别,实验证明可以提高数据分析与数据挖掘的效率与准确性,对多维多息特征数据的解析及评价做出了积极的探索。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 宋炳生, 王曙东, 李克. 中药指纹图谱及其对中药发展的影响[J]. 中草药, 2002, 33(11): 961-963. [本文引用:1]
[2] 罗国安, 王义明, 曹进. 多维多息特征谱及其应用[J]. 中草药, 2000, 31(6): 395-397. [本文引用:1]
[3] 张晓帆, 董鸿晔, 金杰, . 基于SQL Server 2005的数据挖掘技术在中药指纹图谱数据分析中的应用[J]. 沈阳药科大学学报, 2010, 27(3): 205-212. [本文引用:1]
[4] 郝燕, 姜楠, 孙国祥, . 基于主成分分析的中药色谱指纹图谱多维多息特征数据挖掘方法研究[J]. 中南药学, 2007, 5(3): 267-272. [本文引用:1]
[5] 薛毅, 陈立萍. R统计建模与R软件[M]. 北京: 清华大学出版社, 2007. [本文引用:1]
[6] 张东方, 沙明, 杨松松, . 人工神经网络在中药领域中的应用现状及前景[J]. 中草药, 2003, 34(1): 89-91. [本文引用:1]
[7] 韩力群. 人工神经网络理论、设计及应用[M]. 北京: 化学工业出版社, 2002. [本文引用:1]