5.2 面板数据模型理论 5.2.1 面板数据模型及类型。
面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
面板数据用双下标变量表示。例如:
yit,  i1,2,,N;t1,2,,T
其中,N表示面板数据中含有的个体数。T表示时间序列的时期数。若固定t不变,yi•
(i1,2,,N)是横截面上的N个随机变量;若固定i不变,y•t,(t1,2,,T)是纵剖面
上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为:
yititxititit  i1,2,N;j1,2,T
12k,xit,,xit)为1k维解释变量向量;其中,yit为被解释变量;it表示截距项,xit(xit12k'it(it,it,,it)为k1维参数向量;i表示不同的个体;t表示不同的时间;it为
2随机扰动项,满足经典计量经济模型的基本假设it~IIDN(0,)。
面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。
⑴ 混合模型。
如果一个面板数据模型定义为:
yitxitit      i1,2,N;j1,2,T
则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数和都是相同的
⑵ 固定效应模型。
固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model)、时间固定效应模型(time fixed effects regression model)和时间个体固定效应模型(time and entity fixed effects regression model)。
① 个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序
1
列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么模型就称为个体固定效应模型立,表示如下,
yitixitit  i1,2,N;j1,2,T
12k,xit,,xit)为1k维解释变量向量,i是随机变量,式中,yit为被解释变量, xit(xit12k,xit,,xit)有关;表示对于i个个体有i个不同的截距项,且其变化与xit(xit(1,2,,k)为k1维回归系数向量,对不同的个体回归系数相同,it为随机
误差项,则称此模型为个体固定效应模型。
个体固定效应模型也可以表示为
yit = 1 D1 + 2 D2 + … +N DN  + xit +it   t = 1, 2, …, T    其中
1,如果属于第i个个体,i1,2,...,N。Di
其他0,② 时间固定效应模型。
如果一个面板数据模型定义为:
yittxitit    i1,2,N;j1,2,T
式中,t是随机变量,表示对于T个截面有T个不同的截距项,且其变化与
12kxit(xit,xit,,xit)有关;对不同的个体回归系数相同,it为随机误差项,则称此模
型为时间固定效应模型。时间固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型。时间固定效应模型也可以表示如下
yit = 1 D1 + 2 D2 + … +T DT +1 xit +it,  i = 1, 2, …, N  其中
1,如果属于第t个截面,t2,...,T。Di其他(不属于第t个截面)0,
③ 个体时间固定效应模型。
如果一个面板数据模型定义为
yititxitit     i1,2,N;j1,2,T
式中,i是随机变量,表示对于N个个体有N个不同的截距项,且其变化与
12kxit(xit,xit,,xit)有关;t是随机变量,表示对于T个截面有T个不同的截距项,且其
2
12k,xit,,xit)有关;对不同的个体回归系数相同,it为随机误差项,则称变化与xit(xit此模型为个体时间固定效应模型。     ⑶ 随机效应模型
对于面板数据模型
yitixitit     i1,2,N;j1,2,T
如果yit为被解释变量,xit为1k维解释变量向量,为k1维回归系数向量,对不同的个体回归系数相同,t是随机变量,其分布与xit无关;it为随机误差项,则称此模型为个体随机效应模型。
同理也可以定义时间随机效应模型和个体时间随机效用模型。
5.2.2 面板数据模型估计方法
面板数据模型中的估计量既不同于截面数据估计量,也不同于时间序列估计量,其性质随模型类型的设定是否正确,是否采用了相应正确的估计方法而变化。面板数据模型中的解释变量Xit可以是时变的,也可以是非时变的。
⑴ 混合最小二乘估计
混合最小二乘估计方法是在时间上和截面上把NT个观测值混合在一起,然后用最小二乘法估计模型参数。给定混合模型              yitixitit,i1,2,,N;t1,2,,T
如果模型是正确设定的,且解释变量与误差项不相关,即Cov(Xit,uit)0。那么无论是N,还是T,模型参数的混合最小二乘法估计量都具有一致性。
对混合模型通常采用的是混合最小二乘估计。
然而,对于经济面板数据,即使在随机误差项uit服从同分布条件下,由最小二乘法得到的方差协方差矩阵通常也不会满足假定条件。因为对于每个个体i及误差项uit来说通常是序列相关的。NT个自相关观测值要比NT个相互的观测值包含的信息少。从而导致随机误差项uit的标准差常常被低估,估计量的精度被虚假夸大。如果模型存在个体固定效应模型,即i与Xit相关,那么对模型应用混合最小二乘估计方法,估计量不再具有一致性。
⑵ 平均数最小二乘估计法
平均数最小二乘(between OLS)估计法的步骤是首先对面板数据中的每个个体求平均数,共得到N个平均数估计值。然后利用yit和Xit的这N组观测值估计回归参数。以个体固定效应模型
'uit               yitiXit为例,首先对面板中的每个个体求平均数。令
yiT
1yt1Tit,i1,2,,N
3
uiT1ut1TTit,i1,2,,N
XiT从而建立模型
1Xt1it,i1,2,,N,(Xi是k1阶列向量)
yiiXi'ui,i1,2,变换上式得
,N
yiXi'(iui),i1,2,乘估计量。此条件下的样本容量为N。
,N
上式称做平均数模型。对上式应用最小二乘估计,则参数估计量称做平均数最小二如果Xi与(iui)相互,和的平均数最小二乘估计量是一致估计量。平均数最小二乘估计法适用于短期面板的混合模型和个体随机效应模型。对于个体固定效应模型来说,由于i和Xit相关,也就是说i和Xi相关,所以,回归参数的平均数最小二乘估计量是非一致估计量。
⑶ 离差变换最小二乘估计量
对于短期面板数据,离差变换最小二乘(within OLS)估计法的原理是先把面板数据中每个个体的观测值变换为对其平均数的离着观测值,然后利用离差变换数据估计模型参数。以个体固定效应模型为例,
'yitiXituit
具体步骤是先对每个个体计算平均数yi、Xi,可得到如下模型,                    yiiXi'ui
其中yi、Xi、ui为每个个体的平均。上两式相减,消去了i,得
yityi(XitXi)'(uitui)
此模型称做离差变换数据模型。对离差变换数据模型应用最小二乘估计,
ˆ(Xi1t1i1t1NT(XitNTitXi)(yityi)
Xi)(XitXi)'ˆ称做离差变换最小二乘估计量。对于个体固定效应模型,的离差变换最小所得二乘估计量是一致估计量。如果uit还满足同分布条件,的离差变换最小二乘估计量不但具有一致性而且还具有有效性。
⑷ 可行广义最小二乘估计法(随机效应估计法) 有个体随机效应模型
4
'(iuit)                yit0Xit其中0为常数。i,uit服从同分布。对其做以下变换
ˆy(1ˆ)(XˆX)'v                   yiti0itiit22ˆ)(uˆu)渐近服从同分布,1u/uTXi、yi、其中vit(1。0itiui的定义式见(15-14)。对式(15-17)应用最小二乘估计,则所得的估计量称为可行
ˆ0时,式(15-17)等同于混合最小二乘广义最小二乘估计量或随机效应估计量。当ˆ1时,式(15-17)等同于离差变换最小二乘估计。 估计;当对于随机效应模型,可行广义最小二乘估计量不但是一致估计量,而且是有效估计量,但对于个体固定效应模型,可行广义最小二乘估计量不是一致估计量。
在实际的经济面板数据中,N个个体之间相互的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得到正确的统计推断,需要克服这两个因素。
5.2.3 面板数据模型的检验
面板数据模型的检验是检验对于给定的面板数据应该建立何种类型的面板数据模型,包括混合模型、固定效应模型和随机效应模型。面板数据模型的检验有两种检验,F检验和Hausman检验。F检验用于检验应该建立混合模型还是应该建立个体效应模型。Hausman检验用于检验应该建立随机效应模型还是固定效应模型。
⑴ F 检验
F检验用于检验应该建立混合模型还是应该建立个体效应模型。面板数据模型的一项重要任务就是判别模型中的是否存在给固定效应。
① 个体固定效应模型的检验
相对于混合模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。F检验的假设为:
原假设H0:不同个体的模型截距项相同(建立混合估计模型)。 备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。 在假设成立的情况下F统计量定义为: F=
(SSErSSEu)/[(NT2)(NTN1)](SSErSSEu)/(N1)=
SSEu/(NTN1)SSEu/(NTN1)其中SSEr表示估计的混合模型的残差平方和,SSEu表示估计的个体固定效应模型的残差平方和。N表示个体单位数量,T表示时间的个数,当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。F统计量定义为:
F(SSErSSEu)/(N1)
SSEu/(NTN1)5
② 时间固定效应模型的检验
相对于混合估计模型来说,是否有必要建立时间固定效应模型可以通过F检验来完成。F检验的假设为:
H0:对于不同横截面模型截距项相同(建立混合估计模型)。 H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。 在假设成立的情况下F统计量定义为: F=
(SSErSSEu)/[(NT2)(NTT1)](SSErSSEu)/(T1)=  SSEu/(NTT1)SSEu/(NTT1)其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时刻固定效应模型的)的残差平方和。非约束模型比约束模型多了T-1个被估参数。当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。
③ 时间个体固定效应模型检验。
相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F检验来完成。
H0:对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。 H1:不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。 在假设成立的情况下F统计量定义为:
F=
(SSErSSEu)/[(NT2)(NTNT)](SSErSSEu)/(NT2)=
SSEu/(NTNT)SSEu/(NTNT)其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时间个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N+T个被估参数。当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-T- k-1。
④ 变系数固定效应模型检验
相对于时间固定效应模型而言,变系数模型检验的基本假设为
H0:对于不同横截面,模型截距项不相同、回归系数都相同。
(建立固定效应模型)。
H1:对于不同横截面,模型截距项不相同、回归系数不同。
(建立变系数固定效应模型)。
在假设成立的情况下,F统计量定义为
F2(SSErSSEu)[(N1)k]~F[(N1)k,N(Tk1)]
SSEu[N(Tk1)]其中SSEr,SSEu分别表示固定效应估计模型和变系数固定效应模型的残差平方和。
⑵ Hausman检验
6
对一个参数的两种估计量差异的显著性检验称做H(Hausman)检验。H检验由豪斯曼(Hausman)1978年提出,是在杜宾(Durbin,1914年提出)和吴(Wu,1973年提出)基础上发展起来的。所以H检验也称做吴-杜宾检验和杜宾-吴-豪斯曼检验。
① H检验原理。
比如在检验单一方程中某个解释变量的内生性问题时得到相应回归参数的两个估计量,一个是最小二乘估计量、一个是2SLS估计量。其中2SLS估计量用来克服解释变量可能存在的内生性。如果模型的解释变量中不存在内生性变量,那么最小二乘估计量和2SLS估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,那么回归参数的最小二乘估计量是不一致的而2SLS估计量仍具有一致性,两个估计量将有不同的概率极限分布。
ˆ和(都是m1阶的),更一般地,假定用两种方法得到m个回归系数的两组估计量则H检验的零假设和备择假设是:
ˆ)0      H0:plim(ˆ)0    H1:plim(假定相应两个估计量的差作为一个统计量也具有一致性,在H0成立的条件下,统计量
ˆ)N(0,V)N(H
ˆ)的极限分布方差协方差矩阵。则H统计量定义为: 其中VH是N(dˆ)(N1Vˆ)2(m) ˆ)1(H(Hˆ)是(ˆ)的估计的方差协方差矩阵。在H0成立条件下,H统计量渐近其中(N1VH服从2(m)分布。其中k表示零假设中约束条件个数。
ˆ却并不容易。一般来说,    H检验原理很简单,但实际中得到VH的一致估计量VHˆ)Var(ˆ)Var()2Cov(ˆ,) ˆVar(N1VHˆ,)不能给出,致使H统其中Var(ˆ),Var()在一般软件计算中都能给出。但Cov(ˆ)在实际中无法使用。 计量(N1VH实验中也常进行如下检验。
H0:模型中所有解释变量都是外生的     H1:模型中某些解释变量是内生的
ˆ是有效估计量。则有在原假设成立条件下,解释变量参数的最小二乘估计量ˆ,)Var(ˆ)。于是式(15-20)变为 Cov(ˆ)Var()2Cov(ˆ,)Var()Var(ˆ)   (15-21) ˆVar(N1VH把式(15-21)结果代入式(15-19),得
ˆ)'(Var()Var(ˆ))1(ˆ)   (15-22) H( 7
其中Var()和Var(ˆ)分别是对Var()和Var(ˆ)的估计。与式(15-20)比较,这个结果只要求计算Var()和Var(ˆ),H统计量(15-22)具有实用性。原假设成立条件下,式(15-22)定义的H统计量渐近服从2(m)分布。
当为标题,只表示一个参数时,式(15-22)定义的H统计量退化为标量,
ˆ)2(H22ˆss2(1)     (15-23)
ˆ的样本方差。 ˆ2和s2分别表示和其中sH检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定检验、模型嵌套检验、建模顺序检验等。
② 面板数据中利用H统计量确定模型形式的检验。
假定面板数据模型的误差项满足通常的假定条件,如果真实的模型是随机效应模
ˆ和可行广义最小二乘法估计量都具有一致型,那么的离差变换最小二乘估计量WREˆ是性。如果真实的模型是个体固定效应模型,则参数的离差变换最小二乘法估计量W一致估计量,但可行广义最小二乘估计量RE是非一致估计量。那么,当对一个面板数据模型同时进行离差变换最小二乘估计和可行广义最小二乘估计时,如果回归系数的两种估计结果差别小,说明应该建立随机效应模型;如果回归系数的两种估计结果差别大,
ˆ)的非零显著性,说明应该建立个体固定效应模型。可以通过H统计量检验(REW检验面板数据模型中是否存在个体固定效应。H检验原理见表15-3。
表15-3 两类不同模型两类估计量性质比较
离差变换最小 二乘估计 可行广义最小 二乘估计 估计量RE具有一致性
估计量之差
ˆ REW小 大
ˆ具有一致性 个体随机效应模型 估计量W面板数据模型中豪斯曼检验的步骤是: 原假设与备择假设是
ˆ具有一致性 估计量不具有一致性 个体固定效应模型 估计量WREH0:个体效应i与解释变量Xit无关(个体随机效应模型)
H1:个体效应i与解释变量Xit相关(个体固定效应模型)
2(m),其中表由样本计算豪斯曼值,根据显著性水平查卡方临界值表得临界值示检验水平,m表示被检验的回归参数个数。
差别规则是
2(m),则接受原假设,应该建立个体随机效应模型 若用样本计算的H2(m),则拒绝原假设,应该建立个体固定效应模型 若用样本计算的H 8