您好,欢迎来到九壹网。
搜索
您的当前位置:首页因子分析例题

因子分析例题

来源:九壹网


因子分析例题-CAL-FENGHAI.-(YICAI)-Company One1

-CAL-本页仅作为文档封面,使用请直接删除

总4页)

(因子分析

因子分析(Factor Analysis)是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。

第一节 因子分析的基本思想 首先我们看下面两个实际例子:

例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、讨人喜

欢的能力、自信心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。

例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系有

指标:固定资产利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功夫。

因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。

因子分析分为两类,即R型因子分析(对变量作因子分析),Q型因子分析(对样品作因子分析)。

第二节 第二节 因子分析的数学模型

1.1. 模型(R型) X(x1,x2,,xp)设为观察到的随机向量,F(F1,F2,,Fm)是不可观测的向量。 有 即

(1,,p)'其中称作误差或特殊因子。 满足假设: 1)mp 2)cov(F,)0,

3)var(F)Im,var()diag(1,,p)。

a称Fi为第i个公共因子,ij为因子载荷。 因子分析与主成分的关系:

联系:两者都可以看作逼近协方差矩阵。

差别:主成分分析的数学模型是一种变换,因子分析模型是描述X的协方差的结构的一种

a模型。其次,主成分中ij唯一确定,但因子分析中,每个因子的系数不是唯一的。与多变量回归分析不同,此处的“自变量”F是不可观测的。 2.公共因子:因子载荷和变量共同度的统计意义。

2

22假定因子模型中,所有变量和因子都已标准化。 (1) (1) 因子载荷的统计意义 设xiai1F1ainFmi i1,,p 则

E(xiFj)aikE(FkFj)aikr(FkFj)aijK1K1mm 由于Fk,

Fj不相关,且

r(FjF1)1 即

aijrxi,Fj

因子载荷

aij是第i个变量与第j个公共因子的相关系数。

hiaij2j1m2(2)变量共同度的统计意义:

mj1 (i1,,p)称作变量xi的共同度:

2m2222j1var(xi)var(aijFj)var(i)aijvar(Fj)iaijihii22i2i

即1h 即共同度是公共因子所占的xi的方差,其共同度越大,说明公共因子包含的xi的信息就越多。

F(3)公共因子j的方差贡献的统计意义 因子载荷矩阵中列的平方和。 sF称j为公共因子j对xi的贡献,是衡量公共因子相对重要性的指标。

第三节 第三节 因子载荷的估计方法

X(x1,,xp)'这是常用的主成分法,设随机向量的协方差为, 的特征值为12p0e,e,ep, 其相应的特征向量为12(标准正交基) 则:

当公共因子Fi有P个时,特殊因子为0,所以,XAF A为因子载荷阵。

因此,D(X)var(AF)Avar(F)A'AA' 所以,AA', 因此,A为(分

1e1,,pepej),所以,

A(1e1,,pep) 所以第j列因子载荷为第j个主成

j的乘积。所以称为主成分法。

当最后pm个特征根很小时,去掉此时,A(1e1,,mem),

m1em1,,pep

方差AA'=(1e1,,mem)(1e1',,mem')'+diag(1,,p)

22ˆˆ另外,当未知时,用样本协方差s代替,或样本相关阵R代替。一般设1pˆ,,eˆpe为样本相关阵R的特征根,相应的标准正交化特征向量为1。设mp,则因子载

ˆeˆeˆ(aˆ1,,ˆˆij)A(A1mm) 荷阵的估计为即

第四节 第四节 因子旋转

建立因子分析数学模型的目的不仅是为了找出公共因子,更重要的是要知道每个公共因子的意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转,即用一个正交阵右乘使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量

3

仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小。这种变换因子载荷的方法称为因子旋转。

因子旋转有方差最大正交旋转和斜交旋转,此处只介绍方差最大正交旋转。 先考虑两个因子的平面正交旋转,设因子载荷矩阵为:

a11a12a21a22Aap1ap2cossin,sincos

 为正交矩阵。

b11b12bbp1p2 (*) 这样做目的是希望所得结果能使载荷矩阵的每一列元素按其平方值说或者尽可能大或者尽可能小,即向1和0两极分化,或者说因子的贡献越分散越好。这实际上是希望将变量

x1,x2,,xp分成两部分,一部分主要与第一因子有关,另一部分主要与第二因子

2222(b,,b),(b,,b11p112p2)这两组数据的方差要尽可能地大,考虑各列有关,这也就是要求

的相对方差

这里取bi是为了消除符号不同的影响,除以hi是为了消除各个变量对公共因子依

赖程度不同的影响。现在要求总的方差达到最大,即要求使

GV1V2达到最大值,于是考虑G对的导数,求出最大值。 如果公共因子多于2个,我们可以逐次对每2个进行上述的旋转,当公共因子数m2时,可以每次取2个,全部配对旋转,旋转时总是对A阵中第列、列两列进行,此时公式(*)中只需将

22aj1aj,

aj2aj就行了。因此共需进行次旋

2转,但是旋转完毕后,并不能认为就已经达到目的,还可以重新开始,进行第二轮cm次配对旋转。依次进行,可以是总的方差越来越大,直到收敛到某一极限。

例:考察我国各省市社会发展综合状况 一、 一、运用方法:多元统计—因子分析

因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数.几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,只得同组内的变量之间相关性较高,但不同组的变量相关性较低。 二、 二、因子分析方法的计算步骤: 第一步:将原始数据标准化。 第二步:建立变量的相关系数R。

第三步: 求R的特征根极其相应的单位特征向量。 第四步:对因子载荷阵施行最大正交旋转。

4

第五步:计算因子得分。

以下是我国各省市综合发展情况做因子分析。数据表中选取了六个指标分别是:人均GDP(元)X1,新增固定资产(亿元)X2,城镇居民人均年可支配收入(元)X3,农村居民机家庭纯收入(元)X4,高等学校数量(所)X5,卫生机构数量(所)X6。 原始数据见下表: 地区 人均gdp 新增资产 城镇人均 农村人均 高校数量 卫生机构 10265 30.81 6235 3223 65 4955 北 京 81 49.13 4929 2406 21 3182 天 津 3376 77.76 3921 1668 47 10266 河 北 2819 33.97 3305 1206 26 5922 山 西 3013 54.51 2863 1208 19 4915 内蒙古 6103 124.02 3706 1756 61 6719 辽 宁 3703 28.65 3174 1609 43 31 吉 林 4427 48.51 3375 1766 38 7637 黑龙江 15204 128.93 7191 4245 45 5286 上 海 5785 101.09 4634 2456 67 12039 江 苏 6149 41.88 6221 2966 37 8721 浙 江 2521 55.74 3795 1302 35 6593 安 徽 5386 18.35 4506 2048 30 4537 福 建 2376 26.28 3376 1537 31 5423 江 西 4473 102.54 42 1715 48 10463 山 东 2475 71.36 3299 1231 50 7661 河 南 3341 37.75 4208 1511 56 9744 湖 北 2701 43.01 4699 1425 47 9137 湖 南 6380 51.82 7438 2699 42 8848 广 东 2772 32.52 4791 1446 27 5571 广 西 4802 5.35 4770 1519 5 1653 海 南 2516 80.97 4002 1158 18885 四 川 1553 22.07 3931 1086 22 3934 贵 州 2490 48.48 4085 1010 26 6395 云 南 2344 26.31 3309 962 46 6215 陕 西 1925 14.84 3152 880 17 4131 甘 肃 2910 4.16 3319 1029 7 1176 青 海 2685 7.94 3382 998 7 1028 宁 夏 3935 26.65 4163 1136 21 3932 新 疆 数据来源《中国统计年鉴》 1、将原始数据标准化

2、建立六个指标的相关系数阵R 3、共因子方差

4、总方差解建立因子载荷阵: 5、建立因子载荷阵:

5

由于前三个特征值的累计贡献率已达93.505%,所以取前三个特征值建立因子载荷阵如下:

6、对因子载荷阵施行方差最大旋转,旋转后得正交因子表矩阵如下: 由此有:

X1=0.947F1+0.178F2-0.115F3 X2=0.940F1+0.105F2+0.261F3 X3=0.3F1-0.0747F2+0.404F3 X4=0.03F1+0.967F2+0.09455F3 X5=0.212F1+0.830F2+0.345F3 X6=0.222F1+0.493F2+0.806F3 7、输出因子成份得分系数矩阵

最后,由上述表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表分类,将6个指标按高载荷分成3类,列于下表: 高载荷指标 因子命名 1 人均GDP 收入因子 城镇居民人均年可支配收入, 农村居民家庭纯收入, 2 高等学校 社会因子 卫生机构 3 新增固定资产 投资因子

6

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务