• 114.50 KB
  • 10页

基于主成分分析的国家助学金综合评定方法

  • 10页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'基于主成分分析的国家助学金综合评定方法  摘要:介绍了主成分分析法的基本思想、基本原理以及计算步骤;运用主成分分析法建立了全定量化的国家助学金综合评定方法。从定量的角度应用SPSS软件对数据进行多元统计分析,然后进行综合排序,并对排序结果进行分析和评价,数据结果显示该方法具有一定的合理性。  关键词:主成分分析;国家助学金;助学点评定  中图分类号:TP301文献标识码:A文章编号:1672-7800(2013)001-0018-03  0引言10   自上世纪90年代中期,贫困生(即家庭经济困难的学生)问题一直是困扰政府和高校的一大难题,为了让贫困生顺利完成学业,国家开设了奖学金、国家助学贷款、国家助学金、社会助学金等多元联动资助体系对高校贫困生进行资助。根据新的资助政策的要求,各地各高校根据本地实际情况制定本校的家庭经济困难认定办法。通常各地各高校将家庭经济困难学生大体分为2~3档,分为2档的等级为:一般困难和特别困难;分为3档的等级为:一般困难、比较困难和特别困难。但是由于各地区经济发展水平有差异,并且我国的农村乡土观念、人情关系浓厚,存在有的学生即使不贫困,只要提出请求,还是很容易开出村镇两级贫困生证明的,加之政府部门、高校资助管理部门也很少派人去实地核查,也就加大了高校贫困生认定工作的难度,使得贫困生认定存在了一定的虚假情况。这种评定方法存在一定程度的主观因素过强、信息不对等和不容易操作等问题。因此,一种更公平、易操作的全定量助学金等级评定方法的研究变得十分重要。  本文主要应用主成分分析法建立了全定量化的助学金等级综合评定方法,并将计算结果与附录数据进行比较,结果显示该方法具有很好的合理性。  1主成分分析  1.1基本思想  主成分分析是多元统计分析中一种重要的方法,其基本思想是通过多个指标的线性组合,将众多的具有交错复杂相关关系的一系列指标归结为少数几个综合指标,既能使各主成分相互独立,舍去重叠的信息,又能更集中更典型地表明研究对象的特征,还能避免大量的重复工作。  1.2基本原理  假定有n个样本,每个样本共有P个变量,构成一个n×p阶的数据矩阵。X=x11x12…x1p  x21x22…x2p  xn1xn2…xnp定义:记x1,x2,…,xp为原变量指标,z1,z2,…,zm,(m≤p)为新变量指标,则:z1=l11x1+l12x2+…+l1pxp  z2=l21x1+l22x2+…+l2pxp  zm=lm1x1+lm2x2+…+lmpxp系数lij的确定原则:  (1)zi与zj(i≠j;i,j=1,2,…,m)相互无关;  (2)z1是x1,x2,…10 ,xp的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者;……;zm是与z1,z2,…,zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。  则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第1,第2,…,第m主成分。  1.3计算步骤  (1)计算相关系数矩阵。R=r11r12…r1p  r21r22…r2p  rp1rp2…rpp其中rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rjirij=∑n12k=1(xki-xi-12)(xkj-xj-12)12∑n12k=1(xki-xi-12)2∑n12k=1(xkj-xj-12)2(1)(2)计算特征值和特征向量。  解特征方程|λI-R|=0,常用雅可比法求出特征值,并使其按大小顺序排列λ1≥λ2≥…≥λp≥0;分别求出对应于特征值λi的特征向量ei(i=1,2,…,p),要求‖ei‖=1,即∑p12j=1e2ij=1,其中eij表示向量ei的第j个分量。  (3)计算主成分贡献率及累计贡献率。  贡献率:λi12∑p12k=1λk(i=1,2,…,p),累计贡献率:∑i12k=1λk12∑p12k=1λk(i=1,2,…,p)(2)一般取累计贡献率达85%~95%的特征值λ1,λ2,…,λm所对应的第1个,第2个,…,第m个主成分。  (4)计算主成分载荷。lij=P(zi,xj)=λ1eij(i=1,2,…10 ,p)(3)(5)计算各主成分的得分。z=z11z12…z1m  z21z22…z2m  zn1zn2…znm(4)2实例分析  本文研究所使用的数据来自于广西区首届研究生数学建模竞赛试题,运用SPSS软件进行数据处理。  2.1数据处理与分析  由于影响国家助学金评定的因素中定性因素有3个,尤其是贫困原因的描述更是千差万别,没有规范性,主观性判断强。因此,需对定性变量定量化,变量描述如表1。  表1变量的定义  变量名12变量描述x112班级评定困难等级,1=特困生,2=一般困难x212家庭年收入(元)x312月消费金额(元)x412出身因素,0=孤儿,1=单亲,2=双亲x512家庭成员突遇疾病、变故或自然灾害因素,0=无,1=有x612是否有国家贷款,0=无,1=有x712其它家庭成员上学情况,0=0人,1=1人,2=2人,……x812家庭主要劳动力工作情况,0=父母无劳动能力,1=无固定工作,2=务农对数据进行描述性统计分析,计算出他们的最大值、最小值、均值和方差,如表2所示。  表2描述统计量  12N12Minimus12Maximum1210 Mean12Std.Deviationx112238121.00122.00121.5252120.50042x212238120.001220000.00125795.4958123938.76337x31223812100.0012600.0012303.949612115.94207x412238120.00122.00121.9286120.27394x512238120.00121.00120.50841250098x612238120.00121.00120.7017120.45848x712238120.00123.00120.6513120.79570x812238120.00122.00121.3235120.76332ValidN  (listwise)122381212121212从表中可以看出,8个指标均值普遍较高,说明这238名学生整体较为贫困,但是从这8项指标的最大值、最小值可以看出,差距比较大,这说明这238名学生的家庭经济情况存在显著差异。因此有必要对这8项指标进行综合性评价,从而找到合理科学的等级评定方法。  2.2主成分分析  (1)计算相关系数矩阵。  表3相关系数矩阵  12x112x212x312x412x512x612x712x8Correlation12x1121.000120.360120.276120.122120.081120.232120.029120.023x2120.360121.000120.615120.037120.023120.313120.046120.00612x3120.276120.615121.000120.068120.063120.242120.028120.091x4120.122120.037120.068121.000120.226120.003120.214120.171x5120.081120.023120.063120.226121.000120.041120.183120.286x6120.232120.313120.242120.003120.041121.000120.014120.027x7120.029120.046120.028120.214120.183120.014121.000120.147x8120.023120.006120.091120.171120.286120.027120.147121.00010 从表3可以看出,年级评定困难等级(x1)与家庭年收入(x2)、月消费额(x3)这几个指标存在显著性关系,出生因素(x4)与其他家庭成员上学情况(x7)、家庭主要劳动力工作情况(x8)也存在着显著的关系。可见许多变量之间直接的相关性比较强,说明它们存在信息上的重叠,可进行主成分分析。  (2)计算特征值和贡献率。  表4特征值和贡献率  Component12InitialEigenvalues12ExtractionSumsof  SquaredLoadingeTotal12%  ofVariance12Cumulative  %12Total12%  ofVariance12Cumulative  %1122.0851226.0591226.059122.0851226.0591226.0592121.6051220.0651246.125121.6051220.0651246.1253120.9141211.4241247.549120.9141211.4241257.5494120.8681210.8471268.395120.8681210.8471268.3955120.8171210.2131278.608120.8171210.2131278.6086120.720129.0031287.612120.720129.0031287.6127120.645128.0661295.677120.645128.0661295.6778120.346124.32312100.000120.346124.32312100.000结果表示,第1个因子的方差占所有因子方差的26.059%,第2个因子的方差占所有因子方差的20.065%,第3个因子的方差占所有因子方差的11.424%,第4个因子的方差占所有因子方差的10.847%,第5个因子的方差占所有因子方差的10.213%,前5个因子的方差贡献率达到了78.608%,用主成分分析后,可以概括原始变量所含信息的78.608%。从表中可以看出,所有的共同度都在80%以上,所以我们选取前5个因子作为主成分。10   (3)计算主成分载荷矩阵。  表5初始因子载荷矩阵  12Component1122123124125126127128Zscore(x1)120.624120.085120.394120.365120.110120.243120.486120.088Zscore(x2)120.816120.217120.085120.188120.233120.083120.037120.426Zscore(x3)120.782120.117120.189120.025120.384120.097120.211120.370Zscore(x4)120.175120.610120.514120.261120.140120.438120.212120.095Zscore(x5)120.210120.665120.178120.237120.182120.531120.334120.011Zscore(x6)120.559120.115120.020120.196120.739120.262120.137120.037Zscore(x7)120.078120.575120.274120.724120.062120.150120.171120.089Zscore(x8)120.155120.616120.587120.105120.001120.283120.399120.038将载荷矩阵的前5个因子标准化,可以得到特征向量U1,U2,U3,U4,U5,如表6。  表6特征向量10   U112U212U312U412U50.4321120.0671120.4121120.3918120.12170.5651120.1713120.0889120.2018120.25780.5416120.0924120.1977120.0268120.42480.1212120.4815120.5376120.2801120.15490.1454120.5249120.1862120.2544120.20140.3871120.0908120.0209120.2104120.81760.054120.4539120.2866120.7771120.06860.1073120.4862120.614120.1127120.0011第1主成分x1,x2,x3的系数最大,说明第1主成分主要反映了班级评定困难等级、家庭年收入和月消费金额的信息;第2主成分x4,x7,x8的系数最大,说明其主要反映的是出身因素、其它家庭成员上学情况和家庭主要劳动力工作情况;第3主成分主要反映x1,x4的信息;第4主成分主要反映其它家庭成员上学情况;第5主成分反映是否有国家贷款。  2.3排序以及排序结果分析与评价  由主成分的表达式,可以得到各个主成分的得分,按各公因子对应的方差贡献率与其方差贡献率和的比值为权数计算主成分综合模型,可得到主成分综合表达式:Y=0.331505×F1+0.255266×F2+0.145328  ×F3+0.137975×F4+0.12992×F5(5)根据主成分综合分值进行排序,即可对学生情况进行综合评价比较。10   与原助学金等级评定的相关性:从原始数据看,1~95号学生的国家助学金等级为一等,原来的1~95号学生在综合排序后的前95名中有62名,所占比例为65.26%。与原助学金等级评定的差异性比较:任取排名中的几个数据进行分析,例如,综合排名第8的学生,其对应的编号是121,故我们查看原始数据123行的数据情况。从数据可以看出,学生的家庭收入低微、月消费水平较低、单亲都可以看出该生家庭条件比较恶劣,在排序后他的家庭困难程度排名第8,完全符合一等奖学金的评定资格,但却被归为二等助学金。  以上分析说明该方法有很好的合理性,但是同时也具有一定的局限性。  4结语  本文首先介绍了主成分分析法的基本思想、基本原理和计算步骤,并在此基础上对高校助学金等级评定进行了研究,定量分析了我国高等学校助学金等级评定工作中的数据,该方法较以往定性或半定量的评定方法,具有更公平、易操作的优点,克服了其主观因素过强、信息不对等和不易操作等缺点。通过主成分分析法对学生情况进行排序,并对排序结果进行了分析和评价,数据结果显示该方法有很好的合理性。  参考文献:  [1]李国志,李锦江.高校家庭经济困难学生认定方法的合理性研究―基于西南交通大学的调查分析[J].法制与社会,2009(6).  [2]叶依广,何伟.江苏省各中心城市经济发展综合实力极其差异因素的主成分分析[J].南京农业大学学报:自然科学版,2002(4).  [3]叶依广,周蕾.长江三角洲各城市综合实力的主成分分析[J].长江流域资源与环境,2002(3).  [4]杨小平.统计分析方法与SPSS应用教程[M].北京:清华大学出版社,2008.  [5]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1989.  [6]何晓群.多元统计分析[M].北京:中国人民大学出版社,2000.10   [7]杨善朝,张军舰.SPSS统计软件应用基础[M].桂林:广西师范大学出版社,2010.  (责任编辑:杜能钢)10'