21世纪数量经济学(第13卷)
上QQ阅读APP看书,第一时间看更新

1.8 主成分分析评估指数的构造条件和案例[1]

林海明 杜子芳[2]

摘要:主成分分析评估指数的应用较普遍,但有时其结果是错的,故主成分分析评估指数的构造条件有待深入,这里应用一个经验的行为原理,参照因子分析能取代变量的条件等,得出了主成分分析评估指数的构造条件:变量与主成分的相关阵达到更好的简单结构,主成分与变量显著相关,主成分是正向的。改进了主成分个数的确定方法,给出了主成分正向化的方法,一个改进的主成分分析综合评价步骤和案例。

关键词:主成分分析 评估指数 构造条件 案例

1.8.1 引言

在经济、管理、生态、社会、体育等领域的多指标体系中,主成分分析评估指数常应用于综合评价,该方法近期步骤如见林海明(2007),具体如下:

(1)数据的预处理:为了指标(变量)方向的一致、消除指标量纲不同的影响,对原始指标进行正向化、标准化,记为X=(x1,…,xp)′;

(2)指标可降维的判断:如果x1,…,xp之间存在相关性,则指标X可降维;

(3)主成分分析适用性的判断(方法能应用得好是有条件的):如果变量X与主成分的相关阵B0中每行系数绝对值往0、1靠近较多,则用主成分分析法;

(4)主成分个数及其主成分的确定:如果B0每行有一个元素绝对值足够大(≥0.5),则确定B0的列数k为主成分个数;第i个主成分记为yi,其方差记为λi

(5)主成分命名:将B0的第ib0i中绝对值足够大(≥0.5)系数的对应变量归为yi一类,由这些变量与主成分yi的相关关系对主成分yi进行命名;

(6)构造评估指数:以主成分yi的方差贡献率(信息比重)αi=λi/p为权数,有:

Y=α1y1+α2y2+…+αkyk

(7)样品值及其排序:给出y1,…,yk的样品值、评估指数Y的样品值及其排序;

(8)样品分类:用主成分y1,…,yk的样品值做聚类分析,给出样品的分类结果。

(9)评价与建议:结合样品分类结果,y1,…,ykY的样品值和排序,y1,…,ykY与原始变量的对应关系,进行样品优势、不足、潜力状况和原因等的综合评价,给出决策相关性建议。

何平(2005)认为:“主成分分析中主成分的具体涵义是什么?许多评价没有给予解释或给予较为清楚的解释,结果往往是由于不好解释而一带而过。从而影响到评价结果的可信度。”王学民(2007)认为:“评估指数Y到底具有什么样的实际含义,应用者都没有解释或作不出解释,只是笼统地理解为所谓的‘综合’指标,用这种不知其具体含义的指标来对所有样品进行排序说明不了什么问题。”胡永宏(2012)有:“Y含义很不清楚,难以解释,因而评价结果没有说服力。”故有:

问题1:何为主成分分析评估指数Y的构造条件、意义和作用?

M Saporta在Analyses dcs Donnees一书中认为:“如果想以一个综合变量来取代原始变量X,则最好的选择便是第一主成分y1。”[6]于秀林(2011)有:“如果第一主成分y1某一变量xj的系数较小或约等于0,使用y1作评估指数会遗漏变量xj的重要信息。”上述[1]方法步骤(3)、(4)中,“B0中每行系数绝对值往0、1靠近较多”“B0达到每行中至少有一个系数绝对值足够大(≥0.5)”是模糊的,故有:

问题2:如何明确地给出:多少个主成分取代原始变量X是更好的?

白雪梅,赵松山(1995)有:“指标体系是有多个指标构成的系统,而每个指标游离系统之外和纳入系统之内,其作用会有量的增减变化,系统内的每个指标是在与其他指标的相互关联中发挥其协同效应的,如果关联不存在,这种协同效应就消失了。因此,即使是主成分中的正指标也可能出现负系数。”即主成分变量系数中部分是正号、部分是负号是常见的现象。王惠文(1996)认为:“主成分y1,…,yk中存在无序变量(主成分变量系数部分是正号、部分是负号)时,评估指数Y会导致错误的结论,因此在使用中必须格外谨慎。”阎慈琳(1998)认为:“若主成分系数绝对值较大者都为负值,此时应把主成分系数改向,使主成分成为-yi,再与其他主成分综合。”胡永宏认为:“主成分较多系数为负时,是否反向没有公认的准则,在此情况下与第一主成分进行综合就更显得荒谬。”故有:

问题3:主成分存在无序变量时,怎样使得评估指数Y的结果不出错?

这里应用一个经验的行为原理,参照因子分析能取代所有变量的条件等,得出了主成分分析评估指数的构造条件,改进了主成分个数的确定方法,给出了主成分无序时正向化的方法,一个改进的主成分分析综合评价步骤和案例。

1.8.2 主要结果

问题1解答:众所周知,学校中学生的语文、数学、外语课的考试成绩分别记为x1x2x3时,有评估指数:Y=α1x1+α2x2+α3x3,这里αi是变量xi的权数,课程考试同等重要时,αi=1/3,Y反映了学生三门课考试成绩的评估结果及其程度。因为x1x2x3正向(越大越好),量纲制相同,不相关。从统计上讲,Y是三个正向、量纲制相同、不相关变量的评估指数。参照此做法(评估指数构造原理是一种经验的行为原理),k个变量评估指数的构造条件:k个变量正向、量纲制相同、不相关。满足这三个条件时,评估指数样品值能反映样品的综合评估结果及其程度。

多数情况下,p个原始变量x1,…,xp之间是有相关性的,从而需要将原始变量X=(x1,…,xpT用少数几个(如k个)不相关的综合变量(如主成分)取代,主成分分析便是其中的方法之一,参照上述经验的行为原理,主成分分析评估指数的构造条件是:主成分y1,…,yk能取代X、正向、量纲制相同、不相关。因为假定原始变量X是标准化的,主成分变量系数平方和是1[7],这消除了量纲的影响,变量系数是单位化的,即量纲制相同;因为主成分y1,…,yk不相关[7],故有:

结论1:主成分分析评估指数的构造条件是:主成分y1,…,yk能取代X,正向。其构造原理是一种经验行为原理,其样品值能反映样品的综合评估结果及其程度。

主成分是否能能取代X,是如下问题2的解答;主成分的正向化,是如下问题3的解答。

问题2解答:降维的方法还有主成分法下的因子分析,Johnson,R A,Wichern,D W(2007)认为:“为了载荷(变量与因子的相关系数)的解释,我们将乐于看到一个载荷达到简单结构(或称结构简化)的模式,它使各变量在某单个因子上有高额载荷。”即因子载荷阵(变量X与因子的相关阵)每行有元素最大绝对值较靠近1,此时,因子能取代(解释)X。因为变量X与主成分的相关阵B0是初始因子载荷阵,参照此做法,主成分能取代(解释)X,要求B0达到简单结构,此时,主成分解释X的相关性较高,主成分能取代变量X,故与旋转后因子比较有:

结论2:主成分法下,多个不同列旋转后因子载荷阵中选出达到简单结构的,记为B0Г(设为m列),B0B0Г比较,如果初始因子载荷阵B0达到更好的简单结构(见注1)或B0B0Г都是差异不大的简单结构,则主成分能取代并能解释变量X

注1:旋转后因子载荷阵B0Г是逐次对初始因子载荷阵B0每两列元素进行方差最大化正交旋转的结果,B0是列元素平方和(因子方差贡献)降序排列达到最大化的结果(见张尧庭,方开泰(1982)),即B0B0Г的最大化方向不同,故一般情况下B0B0Г的结果是不同的,故比较中B0B0Г中会有更好的简单结构。

因为主成分分析是用主成分解释变量,故选取的主成分取代变量X时,主成分应该与变量有显著相关性(大样本时或达到中度相关),于是有:

结论3:主成分能取代变量X时,若p列的初始因子载荷阵B0pk列,有元素绝对值大于显著相关的临界值(大样本时或取0.5),则主成分个数确定为k,此时,前k个主成分取代原始变量X是更好的。

k列初始因子载荷阵记为B0k,主成分仍记为y1,…,yk

问题3解答:由结论1,主成分有无序变量时,对主成分y1,…,yk中的无序变量进行正向化,随之构造的评估指数Y的结果是正确的。

正向化作法:初始因子载荷阵B0k的第jbj是变量X与主成分yj的相关系数列,bj中元素绝对值大于显著相关临界值(大样本时或取0.5)的对应变量与主成分yj相关性较高,将这些变量归为主成分yj一组,由这组变量内在关系的协同效应对主成分yj进行正向化:如果这组变量内在关系的协同效应是越大越好,则主成分yj取正号,否则,主成分取负号成为-yj

推论:如果B01每个元素绝对值较靠近1,且主成分中只有y1与变量显著相关(大样本时或中度相关),y1是正向的,则用第一主成分y1作评估指数是更好的。

根据上述结论等,对[2]中步骤(2)-(5)、(8)-(9)进行深入,给出一个改进的主成分分析综合评价步骤:

(1)数据的预处理:对原始指标进行正向化、标准化,记为X=(x1,…,xp)′;

(2)指标可降维的判定:如果变量x1,…,xp间有高度相关性,则指标X可降维;

(3)选出简单结构的旋转后因子载荷阵:主成分法下,从多个不同列旋转后因子载荷阵中选出简单结构的记为B0Г(m列):即B0Г每行元素有最大绝对值较靠近1;

(4)主成分能取代变量X的判定:B0B0Г比较,若B0达到更好的简单结构或B0B0Г都是差异不大的简单结构,则主成分能取代变量X(结论2);

(5)确定主成分个数:对p列的初始因子载荷阵B0p,若其前k列元素绝对值大于显著相关的临界值(大样本时或取0.5),则主成分个数为k(结论3),相应的初始因子载荷阵记为B0k

(6)主成分的正向化、命名和主成分的确定:在B0k的第jbj的元素中,选出绝对值大于显著相关临界值(大样本时或取0.5)的对应变量,归为主成分yj一组,如果这组变量内在关系的协同效应是越大越好,则主成分yj取正号,否则,主成分取负号成为-yj;之后由归为yj一组变量内在关系的协同效应对主成分yj进行命名。正向化后的主成分仍记为Y=(y1,…,ykT

(7)构造评估指数:以主成分yi的方差贡献率(信息比重)αi=λi/p为权数,有:

Y=α1y1+α2y2+…+αkyk

(8)样品值及其排序:给出y1,…,yk的样品值、评估指数Y的样品值及其排序;

(9)样品分类:主成分y1,…,yk样品值进行标准化[7]后,做系统聚类分析,按评估指数Y样品值排序给出样品相应的分类结果;

(10)评价与建议:结合样品分类结果,主成分y1,…,yk,评估指数Y样品值和排序,y1,…,ykY与原始变量的对应关系,每个主成分中变量内在关系的协同效应,进行优势、不足、潜力和原因等的综合评价,给出较客观、可靠的决策相关性建议。

注2:上述改进的步骤(3)用到了旋转后因子载荷阵B0Г,是为了与旋转后因子取代X进行比较;上述改进的步骤(4)~(6)用到了初始因子载荷阵B0,是为了判断主成分能否取代和解释X、确定主成分个数、对主成分进行正向化和命名。即改进的步骤(3)~(6)是借鉴主成分法因子分析的理论,并没有混淆主成分分析和因子分析。关于主成分分析和因子分析的异同,见林海明,张文霖(2005)。

1.8.3 案例

为验证上述改进的主成分分析综合评价步骤的有效性,这里用2010年广东省各市对外贸易国际竞争力指标体系的数据(见表4)进行综合评价。指标为:X1-地区生产总值(亿元),X2-从业人员年均人数(万人),X3-从业人员的平均劳动报酬(元),X4-国际市场占有率(‱),X5-城镇居民人均可支配收入(元),X6-工业企业新产品出口(万美元),X7-工业企业R&D活动人员(人),X8-净出口量(万美元),X9-对外贸易依存度(%),X10-实际利用外资(万美元),X11-合同外资额(万美元),X12-金融机构储蓄存款(百亿元),X13-社会固定资产投资额(百亿元),X14-第三产业增加值(百亿元),样本容量n=21。

(1)数据的预处理:指标都是正向的,对正向化变量x1-x14进行标准化。

(2)指标可降维的判定:用SPSS软件计算变量相关阵R得,x1x11x12x13x14的相关系数分别为0.951,0.993,0.946,0.986等,即变量之间有高度相关性,故变量可降维。

表1 因子载荷阵

表2 因子载荷阵每行元素最大绝对值靠近1对比表

(3)选出简单结构的旋转后因子载荷阵:多个不同列的旋转后因子载荷阵中挑选得,m=2时,旋转后因子载荷阵B0Г达到简单结构(见表1)。

(4)主成分能取代变量X的判定:变量与主成分的相关阵B0(初始因子载荷阵,见表1)同B0Г比较:由表1得表2,表2表明,B0达到更好的简单结构,故主成分能取代变量X

(5)确定主成分个数:前2个主成分,变量正态分布下,取显著水平为5%,显著相关的临界值是r(19)=0.443[12],由B0r(19)判断,前2个主成分与变量显著相关,其余主成分与变量没有显著相关,故主成分个数k=2,主成分的累计方差贡献率为93.97%。

(6)主成分正向化与命名:由B0r(19)判断,主成分y1与全部指标x1-x14显著正相关,y1x1-x14内在关系的协同效应是越大越好,故y1是正向的,y1称为外贸国际竞争力水平成分;主成分y2x6-工业企业新产品出口,x8-净出口量显著正相关,与x13-社会固定资产投资额显著负相关,这反映了出口与社会投资的内在关系:社会固定资产投资对出口有一些负影响,原因是国内的社会固定资产投资主要是内需拉动的,但从总体上讲,参与出口及其竞争是经济全球化、坚持对外开放、有利于国内发展的是一个方向,故y2是正向的,y2称为出口与社会投资对比成分。y1y2如下:

y1=0.284x1+0.269x2+0.269x3+0.271x4+0.249x5+0.239x6+0.276x7+0.217x8+0.276x9+0.287x10+0.289x11+0.276x12+0.255x13+0.276x14

y2=-0.181x1-0.173x2-0.158x3+0.302x4-0.096x5+0.419x6+0.265x7+0.497x8+0.263x9-0.101x10-0.078x11-0.247x12-0.349x13-0.225x14

(7)构造评估指数:主成分方差λ1=11.416、λ2=1.725,以主成分方差贡献率λi/p为权数构造评估指数(xiXi标准化变量):

Y=(11.424y1+1.732y2)/14=0.258x4+0.257x7+0.257x9+0.247x6+0.238x8+0.226x11+0.221x10+0.209x1+0.2x3+0.198x2+0.198x14+0.194x12+0.191x5+0.165x13

Y的意义和作用:Y按系数大小对变量排序是x4x7x9x6x8x11x10x1x3x2x14x12x5x13,该评价指数前7个指标注重x4-国际市场占有率、x7-工业企业R&D活动人员、x9-对外贸易依存度、x6-工业企业新产品出口、x8-净出口量、x11-合同外资额、x10-实际利用外资,故Y的评估与广东省对外贸易国际竞争力的目标相符(按y1变量系数大小对变量排序是x11x10x1x7x9x12x14x4x2x3x13x5x6x8y1前7个指标与Y前7个指标共同注重的有x11-合同外资额、x10-实际利用外资、x7-工业企业R&D活动人员、x9-对外贸易依存度,但y1前7个指标不注重x4-国际市场占有率、x6-工业企业新产品出口、x8-净出口量的状况,故第一主成分y1的评估与广东省对外贸易国际竞争力的目标和条理性,似乎意义不充足)。

(8)样品排序:主成分y1y2、评估指数Y样品值及排序见表3。

表3 主成分、评估指数样品值及排序

(9)样品分类:用表3中y1y2样品值的标准化值进行系统聚类分析,选取离差平方和法,欧氏距离,分类阈值取为0.5时,分成6类,结合Y样品值排名顺序给出相应共性分类结果如下:

第一类:深圳;第二类:广州;第三类:东莞、佛山;第四类:中山、惠州、珠海、江门;第六类至第八类此略。

(10)评价:以第二类的广州为例,Y值(5.211)排第2,远高于平均水平,优势明显。其中外贸国际竞争力水平成分y1值(7.068)排第2,远高于平均水平,优势明显;出口与社会投资对比成分y2值(-4.483)倒数第1。即广州是外贸国际竞争力水平优势明显,出口与社会投资有待协调的城市。原因及问题:由表4,优势方面,外贸国际竞争力水平成分y1x1x2x3x12x13x14排序均为1,x7x10x11排序均为2;不足方面,外贸国际竞争力水平成分y1x4x5x6x8x9排序分别为3,3,4,21(倒数第1),3。

表4 广东省各市对外贸易国际竞争力指标体系原始数据与排序

建议:广州市在继续保持外贸国际竞争力水平成分y1x1-地区生产总值、x2-从业人员年末人数、x3-从业人员的平均劳动报酬、x12-金融机构储蓄存款、x13-社会固定资产投资额(如亚运会场馆、配套城市建设等)排序均为1,x7-工业企业R&D活动人员、x10-实际利用外资、x11-合同外资额排序均为2明显优势的前提下,促进x4-国际市场占有率、x5-城镇居民人均可支配收入、x9-对外贸易依存度的关联性发展;从出口与社会投资协调关系上,发挥好外贸国际竞争力水平成分y1x13-社会固定资产投资额的优势、协调促进x6-工业企业新产品出口、x8-净出口量的增加,必然会有更高水平的外贸国际竞争力。

其他类各样品的评价与建议类似,此略。

以上评价与建议,找到了研究对象的共性、优势、不足、潜力和原因等,用具有可控性的原始指标给出了较可靠的决策相关性建议,验证了改进的主成分分析综合评价步骤是有效的。

1.8.4 结论

这里给出了主成分分析评估指数的构造条件:变量与主成分的相关阵B0(初始因子载荷阵)达到更好的简单结构,主成分与变量显著相关,主成分是正向的。

用初始因子载荷阵B0与达到简单结构的旋转后因子载荷阵B0Г,给出了B0达到更好简单结构的比较方法;用B0的元素与显著相关临界值(大样本时或取0.5)的比较,给出了主成分与变量显著相关的判断,改进了主成分个数的确定方法;用与主成分显著相关变量内在关系的协同效应是否越大越好,给出了主成分正向化的方法,改进了主成分命名的方法;给出了一个改进的主成分分析综合评价步骤和案例。

如果变量与主成分的相关阵B0不能达到更好的简单结构,主成分分析评估指数可能得不到较满意的结果,建议用主成分法的因子分析评估指数解决问题[13]

参考文献

[1]Johnson R A,Wichern D W,2007. Applied Multivariate Statistical Analysis 6th ed. Pearson Educatin,Inc,publishing as Prentice Hall,Copyritght. 430-538.中译本:实用多元统计分析.陆璇等译.清华大学出版社,2001。

[2]林海明.2007.对主成分分析法运用中十个问题的解析.统计与决策,8:16-18。

[3]何平:2005.我国综合评价活动发展述评.[EB/OL],http://www.sts.org.cn/fxyj/zbtx/documents/zhps.htm。

[4]王学民.2007.对主成分分析中综合得分方法的质疑.统计与决策,4:31-32。

[5]胡永宏.2012.对统计综合评价中几个问题的认识与探讨.统计研究,1:26-30。

[6]王惠文.1996.用主成分分析法建立系统评估指数的限制条件浅析.系统工程理论与实践,9:25-28。

[7]任雪松,于秀林.2011.多元统计分析.北京:中国统计出版社,184-231。

[8]白雪梅,赵松山.1995.对主成分分析综合评价方法若干问题的探讨.统计研究.6:47-51。

[9]阎慈琳.《关于用主成分分析做综合评价的若干问题》,《数理统计与管理》1998年第2期,第22-25页。

[10]张尧庭、方开泰著《多元统计分析引论》[M],北京:科学出版社,1982。

[11]林海明、张文霖:《主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷》[J],《统计研究》2005年第3期,第65~69页。

[12]峁诗松等编著《概率论与数理统计》[M],北京:中国统计出版社,2000,第106、420页。

[13]林海明:《因子分析模型的改进与应用》[J],《数理统计与管理》2009年第28(6)期,第998~1012页。


[1] 本文获得以下基金资助:教育部人文社会科学研究规划基金项目,项目号:2009YJA910002;教育部人文社会科学重点研究基地重大项目,项目号:2009JJD910001;广东省普通高校人文社科研究项目,项目号:10WYXM 020;广东商学院科学研究重点项目,项目号:08ZD11001;广东商学院华商学院院级重点项目,项目号:HS2011047。

[2] 林海明,男,53岁,广东商学院经济贸易与统计学院教授,中国人民大学应用统计科学研究中心兼职研究员,硕士生导师,现从事多元统计模型与应用等研究,在《数量经济技术经济研究》《统计研究》《数理统计与管理》等期刊上发表论文60余篇,主持和参加国家级、省部级、厅级课题9项;杜子芳,中国人民大学应用统计科学研究中心教授。