多维度战略数据的Chernoff脸谱图表示方法与实证研究
王健海1,2, 曾桢1
1.武汉大学信息管理学院 武汉 430072
2.惠州学院计算机科学系 惠州 516007
摘要

针对实际需要,提出一种将经过适度简化的Chernoff脸谱图应用于多维度战略数据分析的方法,在脸谱图的指标变量分配方面提出基于熵权的最重要指标分配法。以此Chernoff脸谱图为可视化工具,对珠江三角洲地区惠州、中山、江门三个地级市2008年度的主要经济战略指标数据进行实证对比分析,验证该方法的有效性与实用性。

关键词: Chernoff脸谱图; 经济指标; 多元分析
中图分类号:TP391
Expressing Method and Empirical Research on the Use of Chernoff Faces to Represent Multi-dimensional Strategic Data
Wang Jianhai1,2, Zeng Zhen1
1.School of Information Management,Wuhan University,Wuhan 430072,China
2.Department of Computer Science,Huizhou University,Huizhou 516007,China
Abstract

According to the actual needs, the article puts forward a new method which applies moderately simplified Chernoff faces on multi-dimensional strategic data analysis. The strategy in the index variables distribution of Chernoff faces is the most important index distribution method based on entropy weight. Using improved Chernoff faces as visualization tool, the authors make a practical comparison analysis on some key economic strategic data in 2008 of three prefecture-level cities within the Pearl River Delta area. These cities are Huizhou, Zhongshan and Jiangmen. The research result shows that the method has the validity and practicality.

Keyword: Chernoff faces; Economic index; Multiple statistical analysis
1 引 言

面对错综复杂的信息时,人们会自动过滤掉无用信息,保留有用信息。人脑常可以察觉到一些非常细微甚至难于测量的变化,然后对其做出反应。人脑区分脸谱时,这种优越性更加明显,因为无论是脸的胖瘦,还是五官的大小位置,都极易给人留下深刻的印象,因而易于区别。基于此,美国统计学家Chernoff于1970年首先提出了用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状或大小来表征,形成一种独特的肖像符号图[ 1]。由于Chernoff脸谱图能形象地在平面上表示多维度数据并给人以直观的印象,可帮助使用者形象记忆分析结果,提高判断能力,加快分析速度[ 2]。因此若能将Chernoff脸谱图应用于对多维度的重要战略指标数据(地区的主要经济指标数据)的分析,将有利于迅速识别出各战略指标数据的细微差别及变化趋势,为决策提供有力参考。

以往Chernoff脸谱图在此方面的应用存在着不少困难[ 3, 4, 5, 6],主要原因有以下两点:

(1)理论上Chernoff脸谱图可处理18个维度或以上的数据,但在实际应用中,若用脸谱图同时表达18维或以上的数据,会使得脸谱图过于繁杂,观察、阅读均较为困难[ 7];

(2)在应用脸谱图时,面部容貌对应数据变量的分配多是由作图者依据主观判断完成的,而采用不同的数据变量分配方法绘制的脸谱给人留下的印象也大不相同,从而产生不同的结果[ 8]

为此,有学者提出了提取变异最大指标法(或提取主成分法)作为脸谱图的解决方案[ 7],即由原始数据提取主成分,然后将提取出来的第一主成分分配给人眼最敏感的部位,第二主成分分配给人眼次敏感的部位,以此类推,但该方法在表征战略指标数据时却不适用,因为该方法在主成分意义的解释方面存在困难[ 9]

本文提出了一种将经过适度简化的Chernoff脸谱图应用于多维度战略数据分析的方法,在指标变量分配方面提出了基于熵权的最重要指标分配法。利用上述方法,对珠江三角洲地区惠州、中山、江门三个地级市2008年度的主要经济战略指标数据绘制脸谱图,进行实证对比分析,验证了该方法的有效性与实用性。

2 传统Chernoff脸谱图

图1所示,传统Chernoff脸谱图通常由6个部分构成[ 10, 11]:脸的轮廓、鼻、嘴、眼、眼球和眉,各部分表示的意义及其变换公式如表1所示.

图1 传统Chernoff脸谱图[ 10, 11]

表1 传统Chernoff脸谱图变量的意义[ 10, 11]

为了使得脸谱图各部位比例协调符合作图要求,在进行绘图之前通常须对原始数据{xij}进行线性变换。假设第j个变量的取值范围为[aj,bj],则可作线性变换[ 10]:

x'ij=aj+(bj-aj),i=1,2,…,n(1)

其中:

xmin j= xij,xmax j= xij,Rj=xmax j-xmin j(2)

从传统Chernoff脸谱图的构造与绘制方法中可发现,该类脸谱图虽然可以处理18个维度或以上的数据,但在实际应用中,特别是在表述战略数据时,如此高维度的脸谱会显得过于繁杂,计算复杂且变量分配存在过多组合,往往难以在短时间内将变量在脸谱上的位置识别出来,造成观察、阅读等障碍,限制了该类脸谱图的使用范围。

3 适度简化的Chernoff脸谱图

针对上述问题,在表达战略指标数据时,为使得脸谱图表达的意义明确,宜进行适度拆分,控制数据的维数[ 12]。脸谱图的简化存在多种方法,本文对文献[13]和[14]给出的简化脸谱图进行完善,将这种经过适度简化的Chernoff脸谱图应用于多维度战略数据分析。以下对该脸谱图的实现原理及其在数学软件Mathematica中的具体实现方法予以说明[ 13, 14]

适度简化的Chernoff脸谱图的决定变量有10个,如表2所示:

表2 改进的Chernoff脸谱图中的决定变量

对各决定变量均取中间值“5”,绘制出来的脸谱如图2所示:

图2 适度简化的Chernoff脸谱图

3.1 头

头的外形是一个椭圆,椭圆的中心与坐标轴的原点重合,两轴则分别与坐标系轴重合,依据设定,头的决定变量只有一个头的偏心率(headEccent),若以aHead与bHead分别表示椭圆的两半轴的长度,依据设定它们的取值范围分别是:0≤headEccent≤10,1≤aHead≤1.5,1≤bHead≤1.5,因此aHead、bHead的关系可由以下经验式构造[ 13, 14]:

(3)

将aHead、bHead代入椭圆的标准方程,则可得到头的椭圆方程:

+ =1(4)

头的上述构造方法在Mathematica中可用以下代码实现:

head[headEccent_]:=Block[

{

ratio=(1+Abs[headEccent-5]/20) (*变化倍率系数*)

aHead=ratio*(1+(headEccent-5)/25), (*椭圆x轴长*)

bHead=ratio*(1-(headEccent-5)/25), (*椭圆y轴长*)

},

Circle[{0,0},{aHead,bHead}] (*绘制头形椭圆*)

]

3.2 鼻

脸谱中的鼻被描绘为一个正三角形,鼻的决定变量也只有一个,即鼻的大小(noseSize)。在Mathematica中可首先给定初始状态中鼻(正三角形)各端点的坐标,然后根据鼻的大小(noseSize)换算出鼻各端点的实际坐标并用函数Line将各端点连接起来,具体实现如下:

nose[noseSize_]:=Block [

{scale=1+(noseSize-5)/10}, (*换算各端点坐标相乘系数*)

Line[scale{{0,1/5},{-1/5,-1/5},{1/5,-1/5},{0,1/5}}] (*绘制鼻*)

]

3.3 眉

脸谱中两眼上的眉被分别描绘为对称的两条线段,因此绘制眼眉只须确定线段的两个端点的坐标即可。由于眉的决定变量只有一个,即眉的倾斜度(browSlant),因此两端点的坐标均应以browSlant来构造。以脸谱的左眼眉为例,左眼眉的两端点坐标为[ 13, 14]:

左眼眉起始端坐标:

(5)

左眼眉终止端坐标:

(6)

由于左右眼眉关于y轴对称,因此右眼眉的两端点坐标为:

右眼眉起始端坐标:

(7)

右眼眉终止端坐标:

(8)

在Mathematica中的具体实现如下:

brows[browSlant_]:=Block[

{xLbegin=(1/3)-(1/6)Cos[(browSlant-5)Pi/20],

(*左眉起始端x坐标*)

yLbegin=(2/3)-(1/6)Sin[(browSlant-5)Pi/20],

(*左眉起始端y坐标*)

xLend=(1/3)+(1/6)Cos[(browSlant-5)Pi/20],

(*左眉终止端x坐标*)

yLend=(2/3)+(1/6)Sin[(browSlant-5)Pi/20]},

(*左眉终止端y坐标*)

{Line[{{xLbegin,yLstart},{xLend,yLend}}],

(*绘制左眼眉*)

Line[{{-xLbegin,yLstart},{-xLend,yLend}}]}

(*绘制右眼眉*)

]

3.4 眼

脸谱的眼由眼眶和瞳孔组成,眼眶为一椭圆,内有一圆形的瞳孔。眼由4个决定变量确定,分别是:眼眶大小(eyeSize)、两眼间距(eyeSpace)、眼眶偏心率(eyeEccent)和瞳孔大小(pupSize),以左眼为例,说明绘制的方法[ 13, 14]

瞳孔大小:

加2的目的是当pupSize取最小值0时,瞳孔仍不会消失。

左眼瞳孔位置(眼眶中心)坐标:

(9)

左眼眶的两轴长:

(10)

因此,左眼眶的方程为:

+ =1(11)

因为两眼是关于纵坐标轴对称的,因此只需对左眼的x坐标取反即可确定右眼。在Mathematica中的具体实现如下:

eyes[eyeSize_,eyeSpace_,eyeEccent_,pupSize_]:=Block[

{xCenter=(1/3)+(eyeSpace-5)/30,

(*左眼瞳孔位置x坐标*)

aEye=(1/6)+((eyeSize-5)+(eyeEccent-5))/70,

(*眼眶短轴轴长*)

bEye=(1/6)+((eyeSize-5)-(eyeEccent-5))/70},

(*眼眶长轴轴长*)

{Circle[{xCenter,1/3},{aEye,bEye}], (*绘制左眼眼眶*)

PointSize[(pupSize+2)/100], (*设定左眼瞳孔大小*)

Point[{xCenter,1/3}], (*绘制左眼瞳孔*)

Circle[{-xCenter,1/3},{aEye,bEye}], (*绘制右眼眼眶*)

PointSize[(pupSize+2)/100], (*设定右眼瞳孔大小*)

Point[{-xCenter,1/3}]} (*绘制右眼瞳孔*)

]

3.5 嘴

脸谱的嘴由两条曲线构成上下两唇,嘴由三个决定变量确定,分别是:嘴翘度(mouthShape)、嘴大小(mouthSize)和嘴开口度(mouthOpen)。绘制唇线首先须确定唇线上的三个关键端点,即左、右两个嘴角端点和唇线最高点(或者最低点),然后用最小二乘法拟合唇线的二次方程,通过该方程计算唇线上各点坐标并逐点描绘出来。唇线上三个关键点的坐标是[ 13, 14]:

左嘴角端点坐标:

(12)

右嘴角端点坐标:

(13)

上唇线最高点坐标:

(14)

下唇线最低点坐标:

(15)

在Mathematica中的具体实现如下:

mouth[mouthShape_,mouthSize_,mouthOpen_]:=Block[

{fx,gx,xRMouth,xLMouth,yMouth,yLow,yUp,xstep},

xRMouth=-1/3-(mouthSize-5)/15, (*右嘴角端点x坐标*)

xLMouth=1/3+(mouthSize-5)/15, (*左嘴角端点x坐标*)

yMouth=-1/2+(mouthShape-5)* mouthSize/150,

(*嘴角端点y坐标*)

yUp=-1/2+(0.9mouthOpen-1)/27, (*上唇线最高点坐标*)

yLow=-1/2-(0.9mouthOpen-1)/30, (*下唇线最低点坐标*)

fx=Fit[{{xRMouth,yMouth},{0,yUp},{xLMouth,yMouth}},{1,x,x^2},x];(*拟合上唇线方程*)

gx=Fit[{{xRMouth,yMouth},{0,yLow},{xLMouth,yMouth}},{1,x,x^2},x];(*拟合下唇线方程*)

xstep=(xLMouth-xRMouth)/10;

{Line[Table[{x,fx},{x,xRMouth,xLMouth,xstep}]],

(*绘制上唇线*)

Line[Table[{x,gx},{x,xRMouth,xLMouth,xstep}]]}

(*绘制下唇线*)

]

4 基于熵权的最重要指标分配法
4.1 基本思想

熵的概念源于物理的热力学,后来香农(C.E.Shannon)在信息论中引入了信息熵的概念。在信息论中,信息熵是系统无序程度的度量,信息是系统有序程度的度量,二者绝对值相等,符号相反。在信息指标的评价中,若某项指标的指标值变异程度越大,信息熵越小,该指标提供的信息量越大,该指标的熵权也越大,换言之,各对象在该指标上有明显差异,指标的有效性高,评估结果区分度大。反之,某项指标的指标值变异程度越小,信息熵越大,该指标提供的信息量越小,该指标的熵权也越小,评价结果的区分度也越小。从信息角度考虑,熵权代表该指标在该问题中提供有用信息量的多寡程度,其意义在于给定被评估对象集后各种评估指标确定的情况下各指标在竞争意义上的相对激烈程度系数[ 15]

基于熵权的最重要指标分配法作脸谱图的基本思想是:根据各指标值的变异程度,利用信息熵计算出各指标的熵权,然后将权数最大的指标分配给最敏感的脸部部位,将权数次之的指标分配给次敏感的脸部部位,以此类推[ 16]。由于熵权值最大者是变异程度最大的指标,将该指标分配给最敏感的脸部部位,所得的脸谱图观察起来差异最为显著,其模式最易于为人所识别,且熵权法属于典型的客观赋权法,充分挖掘了原始数据本身蕴涵的信息,有效地避免人为因素的影响。

4.2 实现步骤[ 15]

(1)建立原始指标数据矩阵

设有m个对象C1,C2,…,Cm,每个对象有n项指标A1,A2,…,An,yij为对象Ci对应的指标Aj的值(i=1,2,…,m;j=1,2,…,n),则可建立原始指标数据矩阵为Y=(yij)m×n

(2)将原始指标数据矩阵归一化

归一化矩阵P=(pij)m×n的建立可通过计算相对比重得到,即:

pij= ,i=1,2,…,m;j=1,2,…,n(16)

(3)计算熵值

第j个指标的熵值为:

Hj=-k pijln pij,j=1,2,…,n(17)

其中:

k=(18)

(4)计算熵权

第j个指标的熵权为:

ωj= ,j=1,2,…,n(19)

(5)分配指标

依据计算所得的各指标熵权值,将权数最大的指标分配给最敏感的脸部部位,将权数次之的指标分配给次敏感的脸部部位,以此类推。

(6)对作图数据进行预处理

在作图前,须对原始指标数据进行变换,使得数据落在作图所需[aj,bj]区间。对第i个对象中的第j个指标yij的变换公式为:

y'ij=aj+(bj-aj) ,(i=1,2,…,n)(20)

其中,yij为第i个对象中的第j项指标数据,y'ij为变换后作图用数据;aj、bj为第j项指标数据的作图数据区间的上下限;ymin j、ymax j为第j项指标数据中的最小值与最大值[ 2]

(7)绘制脸谱图

由于绘制脸谱图需要进行复杂的计算,本文在Mathematica数学软件平台上对原始数据进行处理,并自动绘制脸谱图,并对结果进行分析和解释。

5 实证分析

惠州、中山、江门三个位于珠三角洲地区的城市,无论在经济总量、经济结构,还是在发展趋势上都较为接近,经济总体状况同质化程度也较高,仅仅通过观察抽象的统计数据通常难以发现三地市之间的差异。因此,本文以经此改进的Chernoff脸谱图为可视化工具,绘制三地市主要经济战略指标数据的脸谱图,并进行对比分析。

依据惯例和学术界的通常观点,一个地区的主要经济指标通常包括[ 17]:国内生产总值A1(单位:亿元)、全社会固定资产投资总额A2(单位:亿元)、外贸出口总额A3(单位:亿美元)、实际利用外资总额A4(单位:亿美元)、地方财政一般预算收入总额A5(单位:亿元),是典型的多维度战略指标数据。惠州C1、中山C2、江门C3三地市2008年的上述5个主要经济指标数据如表3所示:

表3 2008年惠州、中山、江门三市主要经济战略指标数据

根据表3可建立原始指标数据矩阵:

Y=(yij)3×5=

用式(16)将矩阵Y归一化,得:

P=(pij)3×5=

再由式(17)、(18)和(19)计算5个指标的熵值和熵权,其中m=5,k=0.9102。计算结果如表4所示:

表4 5个主要经济战略指标的熵值与熵权

表4可知,5个主要经济战略指标根据熵权排列由大到小的顺序为:A3>A4>A2>A5>A1

根据上述计算,将权数最大的指标A3分配给最为敏感的脸部部位,将权数次之的指标A4分配给次敏感的脸部部位,以此类推。各指标分配到对应脸部部位的详情如表5所示:

表5 5个主要经济战略指标在Chernoff脸谱图上的分配

利用式(20)将各指标的数据进行变换,使之符合作图的取值范围,即在0-10之间。再利用数学软件Mathematica的程序,由计算机自动绘制出脸谱图,如图3所示。为便于对比,图3中也给出了采用提取变异最大指标法绘制的脸谱图。

图3 惠州、中山、江门三地市主要经济指标改进型Chernoff脸谱图

观察采用基于熵权最重要指标分配法绘制的三地市脸谱图发现:中山市脸谱的嘴角上翘度最高,惠州市次之,江门市最次,且三地市差别显著,表明中山市外贸出口总额最多,说明中山市的外贸基础好,经济对外依存度最高,在外贸出口方面中山市处于较明显的优势地位;三地市脸谱中,惠州市的嘴开口度最大,嘴最为阔,中山市次之,江门市再次之,差别也较为明显,表明惠州市实际利用外资总额最多;惠州市的脸谱中眉最为上扬,表明惠州市的全社会固定资产投资总额最高,可判断出惠州市经济发展具有较为强大的后劲和动力;中山市的脸谱中眼最扁,偏心率最大,表明中山市的GDP最高,惠州次之,江门排在末位;三地市的脸谱中头最扁的是中山市,表明在地方财政一般预算收入总额这一指标上中山市仍居首位。总体而言,中山市的脸谱表情呈现“笑容”,而江门市的脸谱表情显得较为“忧愁”,惠州市的脸谱表情居中,这与从各主要经济战略指标数据反映出来的三地市经济总体状况相符,表明通过脸谱图能直观形象地反映出三地市这种经济总体状况,并能将三地市经济总体状况的差异显著地表征出来,使人易于理解和把握。对比采用基于熵权最重要指标分配法绘制的脸谱图与提取变异最大指标法绘制的脸谱图发现,前者脸谱上的各主要表现部位的差异更为显著,表现出的脸谱形象更易于为人所识别,明显优于后者,且后者更大的缺陷是经由该法提取出的主成分在解释其意义上存在严重的困难。上述的分析与对比表明这种为表征多维度战略指标数据而进行的改进是有效、实用的。

6 结 语

Chernoff脸谱图利用人脸的各个部位来表征数据,是一种独特的肖像符号图。传统的Chernoff脸谱图过于繁杂,难于识别,且应用脸谱图时,常由作图者依据主观判断将数据变量分配到不同的脸部部位,势必造成不同的变量分配方法绘制的脸谱给人留下的印象大不相同的现象,因此限制了在分析多维度战略数据上的应用。尽管有学者提出了提取变异最大指标法作脸谱图的改进方法,但是由于该方法在主成分意义的解释方面存在困难等原因,并不适用。本文针对实际需要,提出了一种将经过适度简化的Chernoff脸谱图应用于多维度战略数据分析的方法,并提出了基于熵权的最重要指标分配法。利用上述方法对惠州、中山、江门三地市2008年度的主要经济战略指标数据进行实证对比分析,结果表明改进的脸谱图能更直观形象地反映出三地市的经济总体状况,并能更显著地表征出其差异,易于理解和把握,是分析多维度战略数据的有效可视化工具。

还有很多其他脸谱简化与脸谱数据指标分配方法,探寻更为实用和合理的Chernoff脸谱图作图法是将来研究的重要工作,需要进一步深入探索和完善。

参考文献
[1] Chernoff H. The Use of Faces to Represent Points in K-dimensional Space Graphically[J]. Journal of the American Statistical Association, 1973, 68(342): 361-368. [本文引用:1] [JCR: 1.834]
[2] Huff D L, Mahajan V, Black W C. Facial Representation of Multivariate Data[J]. The Journal of Marketing, 1981, 45(4): 53-59. [本文引用:2]
[3] Song R, Zhao Z, Ou M. A Novel Clustering Method for Chernoff Faces Based on V-system[C]. In: Proceedings of the 2009 IEEE International Conference on Information and Automation, ICIA2009. 2009: 1556-1561. [本文引用:1]
[4] Song R, Zhao Z, Wang X. The Application of V-system in Visualization of Multidimensional Data[C]. In: Proceedings of the 11th IEEE International Conference on Computer-Aided Design and Computer Graphics. 2009: 170-173. [本文引用:1]
[5] 王金甲, 洪文学, 李昕. 一种K-均值脸谱图聚类新算法[J]. 仪器仪表学报, 2007, 28(10): 1916-1920. [本文引用:1]
[6] 王金甲, 李静, 李昕, . 着装脸谱图的分类新算法[J]. 燕山大学学报, 2008, 32(5): 429-434. [本文引用:1]
[7] 殷菲, 潘晓平, 吴震. Chernoff脸谱图的改进[J]. 中国卫生统计, 2003, 20(4): 194-196. [本文引用:2]
[8] Saxena P C, Navaneetham K. The Effect of Cluster Size, Dimensionality, and Number of Clusters on Recovery of True Cluster Structure Through Chernoff-type Faces[J]. The Statistician, 1991, 40(4): 415-425. [本文引用:1] [JCR: 0.833]
[9] 任永功. 面向聚类的数据可视化方法及相关技术研究[D]. 沈阳: 东北大学, 2006. [本文引用:1]
[10] 方开泰. 多变量样本的图分析法(一)[J]. 数学的实践与认识, 1981(3): 63-71. [本文引用:2]
[11] 洪文学, 李听, 徐永宏. 基于多元统计图表示原理的信息融合和模式识别技术[M]. 北京: 国防工业出版社, 2008: 100-103. [本文引用:1]
[12] Flury B, Riedwyl H. Graphical Representation of Multivariate Data by Means of Asymmetrical Faces[J]. Journal of the American Statistical Association, 1981, 76(376): 757-765. [本文引用:1] [JCR: 1.834]
[13] 朱锦懋. Chernoff脸谱图的计算程序设计[J]. 福建林学院学报, 1987, 7(1): 27-31. [本文引用:5]
[14] Dickson S. Chernoff Face[EB/OL]. [2010-02-13]. http://mathworld.wolfram.com/ChernoffFace.html. [本文引用:5]
[15] 邱菀华. 管理决策与应用熵学[M]. 北京: 机械工业出版社, 2002: 140-194. [本文引用:2]
[16] Morris C J, Ebert D S, Rheingans P. Experimental Analysis of the Effectiveness of Features in Chernoff Faces[C]. In: Proceedings of SPIE - The International Society for Optical Engineering. 2000: 12-17. [本文引用:1]
[17] 黄亚钧. 宏观经济学. 3版[M]. . 北京: 高等教育出版社, 2009: 26-41. [本文引用:1]