2012年全国统计建模大赛论文
地区统计数据协调性评估方法
及实证研究
第20代表队
二〇一二年九月
内容摘要
地区数据协调性是当前和民众关注的热点问题之一。本文立足经济学理论,利用统计学相关原理,综合运用多种计量模型,从各地区主要经济指标之间的关联性、匹配度出发,对数据协调性进行深入分析。
在确定数据协调性的评估对象过程中,依据协同学和复合系统理论,运用功效函数,计算出内部和外部指标系统的相对化协调关系,并根据分析结果,最终确定了选取国内生产总值、财政总收入、全社会用电量、货物周转量作为数据协调性研究对象。
在对各地区数据协调性评估过程中,依据相对化比较理念,提出了数据协调度应包括综合依存度及其波动影响度两个方面的观点;从地区分类和随机森林两个角度对相关指标依存度进行赋权,并据此对地区数据协调性展开了深入分析。两种分析方法结果一致显示,近年来地区数据协调性波动剧烈;除上海、天津、海南外,各地区数据协调性具有协同发展的趋势;个别年份地区间协调度差异比较大。
在地区数据协调性空间计量分析过程中,分别从区域相邻和经济相邻两个角度建立地区数据协调度空间滞后模型。模型结果显示,经济相邻省份间的数据协调度具有较强的正效应,特别是与一个省经济总量最接近的2—3个省份,对该省gdp数据协调度的影响最为突出和显著,区域相邻省份间的数据协调溢出效应不明显。
在简易模型推导过程中,充分利用经济距离邻近的最优空间滞后模型结果,并运用前文计算的协调度数据进行验证,结果表明评估效果较好。
最后,根据地区数据协调性评估过程与结论,提出相应的改进方向与建议。
关键词:地区数据;协调度;随机森林;空间滞后模型
目 录
一、问题提出 ............................................................................................................................ 1 二、相关研究综述 .................................................................................................................... 1 三、本文研究思路及创新点 .................................................................................................... 2 (一)研究思路...................................................................................................................... 2 (二)主要创新点.................................................................................................................. 3 四、全国数据协调性分析 ........................................................................................................ 3 (一)指标选取...................................................................................................................... 3 (二)全国数据协调性评估原理.......................................................................................... 3 (三)实证及结果分析.......................................................................................................... 4 五、地区数据协调性评估方法及分析 .................................................................................... 5 (一)数据遴选和预处理...................................................................................................... 5 (二)地区数据协调性评估步骤及原理.............................................................................. 6 1.综合依存度的测算原理 ............................................................................................... 6 2.依存度波动影响力度的测算原理 ............................................................................... 7 3.协调度的测算原理 ....................................................................................................... 8 (三)各地区综合依存度的测算.......................................................................................... 8 1.基于地区分类赋权方法的综合依存度测算 ............................................................... 8 2.基于随机森林赋权方法的综合依存度测算 ............................................................... 9 (四)数据协调度测算.......................................................................................................... 9 1.第一种方法数据协调度测算结果分析 ....................................................................... 9
2.第二种方法数据协调度测算结果分析 ..................................................................... 11 六、地区数据协调性影响因素的空间计量分析 .................................................................. 13 (一)空间回归模型的基本形式........................................................................................ 13 (二)建模思路及权重矩阵选择........................................................................................ 14 1.变量及建模数据 ......................................................................................................... 14 2.空间相关性检验法则 ................................................................................................. 14 3.权重矩阵的确定 ......................................................................................................... 14 (三)基于地区数据协调度的空间计量模型.................................................................... 15 1.空间相关性检验及模型形式的确定 ......................................................................... 15 2.空间滞后模型估计结果 ............................................................................................. 16 3.空间滞后模型主要结论 ............................................................................................. 17 七、基于空间滞后模型推导的协调度简易评估模型 .......................................................... 18 (一)模型推导.................................................................................................................... 18 (二)模型实用性检验........................................................................................................ 20 注:带底纹的表示数据协调度测算结果不一致。............................................................ 20 (三)模型结果分析............................................................................................................ 21 八、结论与建议 ...................................................................................................................... 22 (一)研究结论.................................................................................................................... 22 (二)研究改进方向............................................................................................................ 22 (三)几点建议.................................................................................................................... 22 参考文献 .................................................................................................................................. 23 附 录 ...................................................................................................................................... 25
地区统计数据协调性评估方法及实证研究
一、问题提出
统计数据协调性问题是社会各界关注的热点问题之一。在实际工作中,数据协调性已成为各级统计机构衡量数据质量高低的重要标准。近年来,部分地区统计数据质量有所降低,导致在此基础上计算的全国数据也因指标间的协调性、匹配度等问题屡遭质疑。与此同时,目前有关数据协调性的研究,多数不具有实用性和可操作性。理论研究与实际工作均迫切需要一个科学、实用的地区数据协调性评估方法,以对各地区数据协调性进行一个全面、真实的评价。为此,本文拟从统计指标与部门统计指标间的数据匹配程度出发,根据相关经济理论,综合运用多种统计方法,对地区数据协调性展开系列研究,以求探寻出一种简单、科学、实用的数据协调性评估方法,为提高数据质量提供一定参考。
二、相关研究综述
目前关于数据协调性评估方法的研究主要有四类:第一类是逻辑规则检验法,包括比较逻辑检验和相关逻辑检查法。如,孟连、王小鲁和Rawski对我国分地区gdp总和大于全国gdp,以及各地区gdp增长率的加权平均数高于全国gdp增长率的研究。第二类是统计分布检验法,包括常规分布检验和分布检验缺陷弥补法,如成邦文等人对经济社会统计数据的总体质量和异常点的检验和识别;傅德印提出的探索性数据分析方法及应用。第三类是计量模型分析法。一是分析所拟合模型中各个解释变量的系数是否与
— 1 —
实际相符,如Klein、Ozmucur对我国gdp数据的建模;二是分析所拟合模型中的某些参数估计值的稳定性。如杨冠琼依此反推我国gdp及其增长率的可信性。三是分析模型的预测误差。如刘洪、黄燕对我国2004年gdp数据的模型评价。
在实际应用中的评估方法主要有两类:一是在数据生产过程中,充分运用相关统计指标数据,从协调性的角度对数据质量进行控制,如利用财政收入(税收)、全社会用电量(工业用电量)等指标对gdp、规模工业增加值等指标数据质量的控制。二是在数据初步认定后,对下一级分地区的数据协调性进行评估,大量运用统计内部和外部的相关指标,以全国数据为标准,依据各地区的偏离情况进行评价,如工业、投资、贸易等专业的统计数据协调性评估方案。
三、本文研究思路及创新点 (一)研究思路
首先,利用协同和复合系统理论,对统计内部和外部指标系统数据协调性进行定量分析,选定数据协调性评价模型的相关指标,并进行数据来源说明和预处理;其次,利用相对化数据协调度测度方法,从基于地区分类和随机森林两个角度,对地区间数据协调性分别展开研究;再次,先后从区域和距离两个角度,建立多种空间滞后模型,深入分析地区间竞相博弈对数据协调度的影响效应;然后,以两个竞相博弈的地区为研究对象,通过对经济距离邻近的最优空间计量模型的推导,探索性地构建一个简化的数据协调度对比模型;最后,综合研究结论,提出改进方向及建议。
— 2 —
(二)主要创新点
一是提出相对化数据协调性测度方法,构造了一个协调度的评价指标;二是提出变异系数和随机森林两种赋权方法;三是首次将空间计量模型运用到地区数据协调度的评价中;四是推导出了一个效果较好的地区数据协调性评估模型。
四、全国数据协调性分析 (一)指标选取
从当前实际的统计工作框架出发,可以将统计指标体系划分为内部指标系统和外部指标系统,即综合统计指标体系和部门统计指标体系。在内部指标选取上,考虑到国内生产总值(gdp)是目前衡量经济发展水平的主要统计指标,并且是各行业增加值统计数据的汇总,因此将国内生产总值作为协调性评估的核心指标。在外部指标的选取上,考虑到一个地区经济发展水平的提高,势必将扩大生产规模,从而提高全社会用电量;与此同时,经济繁荣度的提升,产、供、销的提高与经济运行节奏的加快,势必提高本地区的货运周转量;随着经济发展水平的提高,财政收入也会随之增长。因此,选取全社会用电量、财政收入、货运周转量作为协调性评估的外部指标,分别用yd、cz、hy表示。国内生产总值和全社会用电量取自中国统计年鉴,财政总收入取自财政部内部年刊资料,货物周转量取自国家统计局数据库。
(二)全国数据协调性评估原理
首先,计算子系统序参数量的功效函数值ECxij。设子系统序参数量为xij,(i1,2;j1,2n),ij,ij是各序参数量的上、下限值(一般将初始年份
— 3 —
的值作为下限, 终止年份的规划值为上限)。功效函数如下:
ECxijECxijxijijijij,ijxijij,EC(xij)具有正功效时
ijxij,ijxijij,EC(xij)具有负功效时
ijij然后,采用几何平均法计算子系统序参数量的有序度CiXi。
CiXinECxi1ECxi2ECxinnEC(xj1nij)
最后,利用相对化的思想,计算复合系统的相对协调性。对给定时期t, 设子系统序参量的有序度为CtjXi(j1,2), 则t1时期的有序度为Ctj1Xi, 定义CCr为复合系统相对协调:
CCCrt11C1tCt2Ct12C1ttC2
(三)实证及结果分析
利用2000—2011年全国的gdp、财政总收入、全社会用电量、货物周转量数据,计算两系统的数据协调性结果见表1。
表1 全国的统计内部和外部指标系统数据协调性结果
内部指标系统 外部指标系统 复合系统 相对协调性 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 0.0279 0.0565 0.0980 0.1623 0.2294 0.3134 0.4458 0.5749 0.68 0.8082 0.0348 0.0704 0.1136 0.2097 0.2924 0.3845 0.5173 0.6049 0.6950 0.8679 — 1.0003 1.1949 0.7766 1.0480 1.1616 1.2241 1.7086 0.8396 1.0028 由计算结果可知,全国统计指标体系内部系统和外部系统的统计数据总体上有较好的协同关系。比如,全国的gdp数据和财政总收入、全社会
— 4 —
用电量、货物周转量的数据协调性大致较好。但是,数据协调性在不同的年份有明显波动,个别年份出现下降的现象。这显然不能完全由经济发展带来的协同度变化来解释。统计数据质量中的协调性变差的原因,或许与部分地方的数据协调性变差有直接关系,而这正是本文的研究重点。因此,对它们进行深入的协调性评价,既有意义,也很必要。
五、地区数据协调性评估方法及分析
数据协调性评估的核心应当是对经济运行相关指标协调性进行评估。由于指标选取的科学性,原始数据的准确性,评估方法严谨性等诸多难点的存在,导致很难找出一个真正科学、合理且公信力强的绝对化的协调性量化标准。但如果从相对化理念着手,对数据协调性进行评估,则能够较好地避开对协调性的具体量化的难点——如将一个地区相对于另一地区数据协调性的强弱进行比较。基于此,本文拟从相对理念的角度出发,选取gdp、财政总收入、全社会用电量、货物周转量等4个指标,对各地区间的相对协调度进行评价。
(一)数据遴选和预处理
由于gdp数据已经国家统计局核实,cz为财政部决算数据,yd数据为实际计量数据,且作时序图和分地区间的比较并未发现异常值,故不需处理。在对hy数据作时序图和分地区间的比较时,发现天津市2008年、2009年的数据出现剧烈波动(2006—2009年分别为12240.8亿吨、152亿吨、2703.44亿吨、9606.61亿吨),显然是异常值,进一步查天津市统计公报的数据,与之也差异加大且存在矛盾,为了避免异常值带来的各种影响,本文采取线性预测法进行修正(见附录)。
— 5 —
(二)地区数据协调性评估步骤及原理 1.综合依存度的测算原理
一个地区经济运行状况,不仅可以通过宏观经济运行指标(如gdp等)反映出来,而且还能通过诸多对经济运行具有相当程度影响力度的,具有数据来源的部门指标体现出来(如:财政收入、全社会用电量、货运周转量等)。一般地,当某一地区相关部门指标相对gdp的支撑力度越强时,可以认为该地区gdp数据越真实可信,统计数据与部门数据间的协调性越强,它们之间这种依存关系称之为相关指标的依存度。
用ydji、hyji、czji和gdpji分别表示第i期j地区全社会用电量、货运周转量、财政收入和gdp;ydji、hyji、czji和gdpji分别表示第i期j地区全社会用电量、财政收入、货运周转量和gdp的增量。
那么,第i期j地区经济增长与全社会用电量、货运周转量和财政总收入间的依存度可分别表示为:Y1jiydjigdpji, Y2jihyjigdpji, Y3jiczjigdpji。从
形式上看,第i时期j地区某一指标依存度的测算来自于部门相关指标增量与gdp增量比。其经济意义在于,每单位新增的gdp对部门相关指标的依赖程度。通过增量比测算出来的依存度,能够实现将不同经济发展水平的各地区相关指标支撑力度进行相对比较。当考虑多个部门指标对gdp的综合支撑力度时,那么地区间的相对比较就需要将各依存度根据其对总体的影响力度进行赋权,以求出该地区的综合依存度,公式如下:
Wji=1jiydjigdpji2jihyjigdpji3jiczjigdpji
=1jiY1ji2jiY2ji3jiY3ji其中,1ji、2ji、3ji为待估权数。
— 6 —
由于各地区原始数据的协调性不确定,或者说各地区自身原始数据质量高低无法判断, 1ji、2ji、3ji的确定不能够通过利用构建传统模型进而得出各分项权重的办法。为此,本文拟从两种方法入手分别对其进行赋权:一是根据各地区经济发展水平、结构及动力进行聚类,再在同类别里利用变异系数赋权法(详见附录2)进行赋权;二是根据各地区取自然对数后的ydji、hyji、czji和gdpji,构建随机森林回归,并根据模型反馈的各变量重要性程度进行赋权。
2.依存度波动影响力度的测算原理
一个地区经济运行是各系统相互作用,相互协调运作的过程,经济运行的内部结构、发展基础,在短时期内应当具有一定的稳定性,也就是说依存度不会出现剧烈波动。其理由主要有两方面:一方面如果某一地区短时期内相关指标依存度波动过于剧烈,势必意味着其经济结构、发展模式或者发展动力出现了大幅调整,这是不符合实际的;另一方面某项指标(如货运周转量)因为各种原因出现大幅缩水时,经济发展水平(gdp)也应与之相适应,从而不会使利用相对比较的思想测算的依存度出现剧烈波动。如果依存度出现大幅度波动,则可以认为不是统计数据出现了问题,就是部门指标出现了偏差,数据协调性水平实际上出现了一定程度的下降。因此,对数据协调性的评估,既要考虑综合依存度的支撑力,又要兼顾其波动性的影响。为衡量依存度异常波动给数据协调性带来的影响,我们根据波动幅度进行赋权,将波动剧烈的地区赋予较小的值,波动较小的地区赋予较大的值。具体如下:
第i期j地区综合依存度偏离上一期的程度用WjiWjiWji1表示,则第
— 7 —
i期j地区综合依存度波动幅度可用取对数后的偏离程度Wji表示,各地区表示,则依存。
的相对波动幅度可以用标准化后的偏离程度
WjiminWimaxWiminWiWjiminWi度波动对协调性影响力度可以赋值为 Uji13.协调度的测算原理
maxWiminWi数据协调性主要包含反映相关指标支撑力的依存度,以及依存度波动影响力度两个方面,将二者结合考虑,可以得出各地区间数据协调性的度量值(简称协调度),其计算步骤为:首先,将综合依存度测算出来,并进行标准化处理,标准化公式为Nji度Uji1WjiminWimaxWiminWiWjiminWimaxWiminWi;然后,测算波动影响力
;最后,根据相应的赋权法则,将二者结合起来
测算出协调度Eji1jiNji2jiUji,其中1ji和2ji为待估权数。对权数1ji、2ji的确定,拟采用变异系数赋权法进行。
本部分用31个省(市、区)的截面数据,对地区数据协调度进行测算。 (三)各地区综合依存度的测算
1.基于地区分类赋权方法的综合依存度测算
具有近似经济发展水平、结构及动力的地区,其经济发展路径应基本一致,监测指标波动也应遵循近似规律。因此,这里对统计指标依存度测量,先根据各地区经济运行情况进行分类,以便于进一步分析。利用2010年全国31个省(市、区)数据,选取gdp、二三产业增加值之比、投资消费比和人均gdp 4个指标进行聚类分析。对原始数据进行全距从0到1标准化,度量区间选取Pearson相关性,运用系统聚类分析法中的最远邻元素法
— 8 —
进行聚类,分类结果见附录。假定2001—2011年间具有同类经济发展水平、结构及动力的各地区大体格局基本保持不变。根据以上聚类分析结果,利 用各指标依存度进行变异系数法赋权,并测算出历年综合依存度(见附录)。
2.基于随机森林赋权方法的综合依存度测算
不同类地区的赋权方法,容易受到极值的影响,为了使测度过程不易受极值影响,这里选取2001—2011年相关数据,利用R软件(2.151版本)对取自然对数后的gdp、全社会用电量、财政收入、货运周转量,分别对每一年的截面数据进行随机森林回归,根据从精确度的平均递减来衡量变量重要性,以确定各指标权重,并据此测算出历年综合依存度。
表2 相关指标的权数表 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年 NMSE 训练集 0.038 0.038 0.037 0.041 0.041 0.051 0.051 0.043 0.047 0.047 0.051 测试集 0.139 0.132 0.112 0.119 0.144 0.211 0.190 0.187 0.206 0.218 0.223 货运周转量 0.253 0.235 0.237 0.2 0.251 0.232 0.243 0.234 0.212 0.199 0.191 权数 全社会用电量 0.327 0.356 0.366 0.308 0.335 0.301 0.306 0.356 0.318 0.327 0.327 财政总收入 0.419 0.410 0.397 0.402 0.415 0.467 0.450 0.411 0.469 0.474 0.481 (四)数据协调度测算
1.第一种方法数据协调度测算结果分析
利用地区分类赋权方法测算出来的2001—2011年综合依存度,对综合依存度的波动程度进行赋值,再利用变异系数赋权法对1ji、2ji进行赋权,得出2002—2011年各地区数据协调度。
— 9 —
图1 第一种方法数据协调度测算结果图
通过对测算结果进行分析,得出两点重要结论:
一是各地区数据协调性发展趋势基本保持同步且呈波浪型分布。从图1看,2002—2011年,除上海、天津、海南外,各地区数据协调性具有同增、同降的发展态势。其中, 2004、2005、2007和2010年数据协调性相对较低。通过对计算过程的进一步分析发现,这几个年份的用电量依存度明显低于其他年份。值得注意的是,2003年、2011年各省、市数据协调性离散程度相对比较大,其原因可能是,2003年,SARS对部分省份经济影响较大;2011年,国际金融危机的冲击和换届因素的影响,部分省份的数据协调性出现在一定程度上降低。
二是上海、天津、海南数据协调性波动剧烈。从图1看,上海、天津、海南数据协调性波动剧烈,且有其自身的波动特征,并不与其他地区发展趋势相一致。这说明,上海、天津、海南数据协调性与其他地区相比波动性更为强烈。结合实际我们发现, 这几个地区经济发展对市场运作依赖强烈,部门数据能够比较直接地反映出当年贸易繁荣度,而依存度是个相对
— 10 —
指标,其波动剧烈的特性从一定程度上表明这些地区统计指标对经济敏感程度相对弱于部门指标。值得关注的是,天津数据协调性与其他地区发展趋势相反,且2006年、2008年、2009年和2010年协调性明显低于其他地区。导致这种现象的原因主要有两个,一是2007年以来天津的货运周转量明显下降,从2007年的152亿吨公里快速下降到2010年的10065亿吨公里,而其GDP在这几年始终保持较快增长,使货运依存度出现较大幅度的降低;二是天津自身的依存度波动剧烈,特别是货运周转量依存度的波动明显,从很大程度上降低了协调度在数据波动性上的赋值。
2.第二种方法数据协调度测算结果分析
利用随机森林赋权方法测算出来的2001—2011年综合依存度,对综合依存度波动程度进行赋值,并利用变异系数赋权法对1ji、2ji进行赋权,得出2002—2011年各地区数据协调度。从历年各地区数据协调度结果图可以看出,基于随机森林思想的各地区协调性评估结果与基于不同类地区的分析结果基本一致。
图2 第二种方法数据协调度测算结果图
— 11 —
通过两种分析方法的各地区协调度评估过程及结果,可得出如下两点重要结论:
一是各地区数据协调性发展趋势基本一致。两种分析方法结果均显示,各地区数据协调性除上海、天津、海南外,均保持同增同降的发展趋势;2008年、2009年数据协调性相对较高,2004、2005、2007和2010年数据协调性相对较低。这一方面表明各地区数据协调性的确具有协同发展趋势,另一方面也相互验证了两种分析方法能够运用于数据协调性评估的实际。
二是各地区数据协调度差距具有一定波动性。从两种分析方法结果图看,2002年、2004年、2007年、2009年各地区数据协调性差距比较小;2003年、2006年和2011年各地区数据协调性差距比较明显。从总体上看,基于随机森林思想的协调性分析结果,地区数据协调性差异程度明显大于基于不同类地区的分析结果;从个例看,天津的基于随机森林思想的协调性评估结果,相对于不同类地区的分析方法有所改善,其原因可能是在基于不同类地区的分类评估过程中,分组数据受极端值影响过于剧烈,而在基于随机森林的评估方法中,对极端值的依赖程度并不那么明显,这也表明,随机森林的分析方法对各地区数据协调度的评估或许更有效。
图3 基于地区分类的2011年协调度空间分布图 图4 基于随机森林的2011年协调度空间分布图
上图中颜色越深的省份,表示其数据协调度越高。
— 12 —
六、地区数据协调性影响因素的空间计量分析
近年来,以空间数据为对象的空间计量分析取得了长足进展,并逐步成为了经济学学科的一个重要新兴分支。从当前统计数据的生产机制及过程看,一方面,地区内部参与主体相互博弈;另一方面,由于统计数据直接体现政绩民生的发展状况,地区间的数据博弈同样突出,空间效应可能是影响地区数据协调性的重要因素之一。因此,本文采用空间计量模型,对地区数据协调性的空间效应进行分析。
(一)空间回归模型的基本形式
Anselin给出的空间回归(线性)模型通用形式如下:
yW1yXW2~N(0,In)2
在上式中,y是一个n×1维向量;β是与解释变量X(n×k)相关的参数向量(k×1);W1和W2是n×n维空间权重矩阵,分别与因变量的空间自回归过程和干扰项ε的空间自回归过程相关;ρ和分别是空间滞后因变量(W1y)和空间误差因变量(W2)的回归系数。在通用形式基础上,对模型参数做不同,可导出一些特定模型,如:
令W2为0,可导出空间滞后模型(SAR),表达式为:
yW1yX~N(0,In)2
由于在回归方程中综合了解释变量X和空间自回归变量W,因此该模型也被称为空间混合自回归模型。ρ度量的是邻近地区对目标地区的集聚扩散效应,大于0为正效应,小于0为负效应,等于0为中性效应;β度量的是解释变量对因变量的影响。
— 13 —
令W1为0,可导出空间误差模型(SEM),表达式为:
yXW2~N(0,2In)
式中,是空间相关误差的回归参数,度量了样本观测值的空间依赖作用,为服从正态分布的随机误差向量。
(二)建模思路及权重矩阵选择 1.变量及建模数据
以基于随机森林测度的地区协调度系数(E)作为因变量y;以经过对数处理的地区生产总值(lngdp)、货运周转量(lnhy)、全社会用电量(lnyd)和地区财政总收入(lncz)作为自变量Xk;并在模型中引入W,即空间滞后因变量(或空间误差项)。此处主要分析空间效应对数据协调度影响,基于适用和易操作原则,选择2011年31个省(市、区)相关指标的空间截面数据作为建模数据。
2.空间相关性检验法则
空间计量模型相关性检验,主要分为两类:一是Moran's I指数检验,用于判断模型空间自相关;二是Lagrange乘数检验统计量检验,主要用于判断模型形式,常用的有5个统计量,其中,LMlag和R-LMlag用于空间滞后模型(SAR)显著性判断,LMerr和R-LMerr用于空间误差模型(SEM)显著性判断,LMSARMA用于判断空间模型的高次选择(在实践中应用不大,因为一旦判定滞后或误差模型是合适形式,也就不需要高次选择,其模型实质上已经显著)。
3.权重矩阵的确定
在空间计量模型中,选择合适的空间权重矩阵(相邻矩阵)非常重要。
— 14 —
空间权重矩阵基本上可分为以区域为基础和以距离为基础两种:
(1)以区域为基础的权重矩阵W=(wij),元素值的确定采用r相邻方法,当i区域与j区域相邻时,wij =1,否则为0;
(2)以距离为基础的权重矩阵W=(wij),本文选择经济距离(具体为以gdp数据计算的距离)来确定该矩阵的具体形式,这是因为在统计数据生产过程中,参与主体往往关注经济规模总量相近省份的发展变动,因此经济规模邻近(非区域邻近)省份理论上会对相关省份的数据协调性产生影响。选定经济距离最近的k个省份为邻近,这k个省对应的wij =1,其他为0。经济距离采用欧氏距离,即:d(lngdpilngdpj)2。
在模型构建前,对空间权重矩阵进行标准化变换,使矩阵的行和为1。 (三)基于地区数据协调度的空间计量模型
为考察区域相邻和经济相邻的空间效益,本文分别基于区域相邻权重矩阵和经济相邻权重矩阵,构建协调度系数的空间计量模型。
1.空间相关性检验及模型形式的确定
在GeoDa软件中对未加入W变量的模型数据进行OLS回归,可同时对因变量(E)进行空间依赖性检验,其结果如下表3。从表中可知:基于区域相邻矩阵的地区数据协调度系数Moran's I为0.0263,空间自相关为较弱的正自相关,在10%的水平下未通过显著性检验,但是LMlag和R-LMlag在5%的显著性水平下检验通过,LMerr和R-LMerr未通过检验,说明仍可考虑建立基于区域相邻矩阵的空间滞后模型;基于经济相邻矩阵(k=2)的Moran's I为0.6133,说明存在较强的正自相关性和空间依赖性,且统计检验通过,同时其LMlag和R-LMlag分别在1%和10%的显著性水平下检验
— 15 —
通过,明显优于LMerr和R-LMerr的检验效果,因此也建立空间滞后模型。
表3 空间依赖性检验统计值 Moran's I Moran's I (error) Lagrange Multiplier (lag) Robust LM (lag) Lagrange Multiplier (error) Robust LM (error) Lagrange Multiplier (SARMA) 基于区域相邻矩阵 0.0263 -0.3819 4.5819** 4.1765** 0.4883 0.0829 4.68* 基于经济相邻矩阵(k=2) 0.6133*** 2.8760*** 6.7801*** 3.6160* 3.3245* 0.1603 6.9405** 注:表中*、**、***分别表示通过10%、5%、1%水平下的显著性检验;为选择合适模型,本文选择k=1、2、…、6,本表中仅给出k=2时的相关检验结果。
2.空间滞后模型估计结果
在GeoDa软件中进行模型拟合,回归结果及主要统计量如下表。其中,Model_1为基于区域相邻矩阵的SAR;为筛选基于经济相邻矩阵的最优SAR,我们设定权重矩阵的k取值从1至6,分别得到下表中Model_2~ Model_7。从表中结果看:
(1)基于区域相邻矩阵的SAR:模型的拟合优度为0.8573,各变量参数均在1%或5%的显著性水平下检验通过。模型中WE的回归参数小于零,这意味区域相邻省份对协调度系数的空间效应为负效应,这似乎与之前的Moran's I检验结果相悖,但事实上模型的Moran's I值较小,且进一步检验Moran's I的期望为-0.0303。因此,该模型仍可认为基本成立,但由于Moran's I值接近于0,所以该模型应用价值并不大。
(2)基于经济相邻矩阵的SAR:比较6个模型的优劣,可知当k=2和k=3时的两个模型拟合优度、主要变量参数检验结果等,都要优于其他4个模型,即Model_3和Model_4都是比较理想的模型形式。进一步作最优选择,Model_3的WE参数T统计值、拟合优度值、L值、AIC值和SC值,
— 16 —
都要优于Model_4。故选择Model_3为最终的经济相邻矩阵SAR模型的具体形式,表达式如下:
E0.01210.2725WE0.4683lngdp0.0672lnhy0.1121lnyd0.3085lncz
表4 地区协调度系数(E)空间滞后模型回归结果及主要统计量
基于区域 变量 相邻矩阵的SAR Model_1 WE C lngdp lnhy lnyd lncz -0.3319*** (-3.49) 0.1006** (2.01) -0.4424*** (-8.10) 0.0559*** (3.03) 0.1365*** (9.26) 0.2609*** (5.62) 基于经济相邻矩阵的SAR(6个模型) k=1 Model_2 0.1393 (1.45) 0.0143 (0.35) -0.4415*** (-7.43) 0.0653*** (3.32) 0.1190*** (6.22) 0.2714*** (5.52) k=2 Model_3 0.2734** (2.37) 0.0121 (0.32) -0.4683*** (-8.80) 0.0672*** (3.70) 0.1121*** (6.50) 0.3085*** (6.60) k=3 Model_4 0.2725** (2.04) -0.0174 (-0.43) -0.4679*** (-8.67) 0.0706*** (3.78) 0.1185*** (6.76) 0.2954*** (6.36) k=4 Model_5 0.2257 (1.36) -0.0399 (-0.73) -0.4569*** (-8.10) 0.0711*** (3.50) 0.1233*** (6.57) 0.2771*** (5.78) k=5 Model_6 0.1741 (0.87) -0.0418 (-0.55) -0.4574*** (-7.90) 0.0661*** (3.25) 0.1290*** (6.93) 0.2743*** (5.57) k=6 Model_7 0.1880 (0.88) -0.0600 (-0.70) -0.4609*** (-8.03) 0.00*** (3.20) 0.1320*** (7.49) 0.2760*** (5.62) 主要统计量: R2 L AIC SC 0.8573 43.1197 -74.2395 -65.0813 0.8388 40.6602 -69.3204 -60.1622 0.8631 42.6815 -73.3630 -.2048 0.8593 42.5638 -73.1276 -63.9694 0.8475 41.5505 -71.101 -61.9428 0.8394 40.9235 -69.8470 -60.6888 0.8411 41.14 -70.3788 -61.2206 注:表上半部分为变量的回归系数,其括号中数据为T值;*、**、***分别表示通过10%、5%、1%水平下的显著性检验。
3.空间滞后模型主要结论
通过构建地区gdp数据协调度系数的空间滞后模型,度量了空间效应对地区数据协调度的影响力度及方向:
(1)经济相邻省份间的数据协调度具有较强的正效应。基于经济相邻
— 17 —
矩阵的Moran's I 值大于0.6,说明地区数据协调度存在较强的空间正自相关;Model_3的WE的回归系数大于0,表示一个省份接受经济相邻省份数据协调度的正溢出效应时,其自身数据协调度也趋于上升,经济空间效应为较强正效应,反之亦然。从最优模型看,与一个省经济总量最接近的2—3个省份,对该省gdp数据协调度的影响最为突出和显著。由于经济相邻省份间具有较强正效应,说明即使提高一个或部分典型省份的数据协调度,也会对经济相邻省份的数据协调度产生积极的促进作用,这样可以推动局部地区甚至全国数据协调度的提高。
(2)区域相邻省份间的数据协调溢出效应不明显。Model_1回归结果显示,一个省份的数据协调度,与区域相邻省份数据协调度的溢出效应,虽然有一定的空间负相关性,但是相关程度很低,即区域空间效应为弱负效应,甚至可以忽略。
(3)模型自变量Xk对地区数据协调度的影响不一。gdp为负效应,而货运周转量、全社会用电量、财政收入则表现为正效应,其中财政收入的正效应最强。
七、基于空间滞后模型推导的协调度简易评估模型 (一)模型推导
前面针对两种评估数据依存度的方法,虽然均能够测算出各地区的相对数据协调度,但它们对样本量的要求比较大。实际应用中,往往仅仅只需要对一个或者几个地区数据协调性和匹配性进行比较。为此,这里我们拟根据2011年基于经济相邻的空间滞后模型(SAR),构造一个“一对一”的数据协调度评估模型。具体过程如下:
— 18 —
当经济相邻矩阵(k=2)时,某两个经济距离相邻的两个省的SAR为:
E1C0W11lngdp12lnhy13lnyd14lncz1E2C0W21lngdp22lnhy23lnyd24lncz2
将空间滞后因变量展开得:
11E1C0(E2E3)1lngdp12lnhy13lnyd14lncz122
11E2C0(E1E3)1lngdp22lnhy23lnyd24lncz222将两式相减得:
11E1E2E2E11lngdp11lngdp22lnhy12lnhy2 223lnyd13lnyd24lncz14lncz2移项后得:
(12)(E1E2)1lngdp11lngdp22lnhy12lnhy23lnyd13lnyd24lncz14lncz2
由此,很容易推出两个经济距离相邻地区数据协调度差额公式:
(E1E2)1lngdp11lngdp22lnhy12lnhy23lnyd13lnyd24lncz14lncz221(lngdp1lngdp2)2(lnhy1lnhy2)3(lnyd1lnyd2)4(lncz1lncz2)(1(1)2) 根据SAR拟合结果可知, =0.272>0,那么只要上式中的分子大于0,则E1E2>0,设E1E2,代入相应的模型拟合参数值,可以得出2011年“一对一”数据依存度简易评估模型如下:
0.4679(lngdp1lngdp2)0.0706(lnhy1lnhy2)0.1185(lnyd1lnyd2)0.2954(lncz1lncz2)
>0,则第一个地区比第二个地区数据协调性好。
— 19 —
(二)模型实用性检验
先将各省2011年lngdp数据从大到小排序,再根据欧氏距离法则(k=2),找出各省的经济近邻省份,然后一对一测算出数据协调度,结果见下表。
表5 评估结果表 省份 广东 江苏 山东 浙江 河南 河北 辽宁 四川 湖南 湖北 上海 福建 北京 安徽 内蒙古 黑龙江 陕西 广西 江西 天津 山西 吉林 重庆 云南 贵州 甘肃 海南 宁夏 青海 相邻类型 下二 上下 上二 上下 上下 上下 上下 上下 下二 上下 上二 上下 上下 上下 上二 下二 上下 下二 上下 上下 上二 上下 上下 上二 下二 上下 上二 下二 上下 上二 上二 比较下一 -0.01 0.07 0.15 -0.08 -0.09 0.18 0.04 -0.03 -0.40 -0.09 0.00 -0.02 -0.16 0.09 0.02 -0.19 0.00 -0.16 -0.08 -0.06 0.02 -0.08 0.05 -0.04 0.08 0.10 -0.04 -0.07 0.14 0.05 -0.04 -0.48 -0.13 0.00 0.03 -0.12 0.05 -0.01 0.01 -0.08 -0.27 0.25 -0.16 0.12 0.10 0.04 比较上一 比较下二 0.06 -0.44 -0.07 -0.17 -0.04 -0.03 0.04 -0.52 -0.07 -0.01 -0.04 0.14 比较上二 估计差额 实际差额 估计差额 实际差额 估计差额 实际差额 估计差额 实际差额 0.01 -0.07 0.12 -0.15 0.08 0.09 -0.18 0.03 0.40 -0.36 0.09 0.00 0.02 0.16 -0.02 0.19 0.00 -0.24 0.16 0.08 0.06 -0.02 0.08 -0.05 -0.37 0.04 -0.08 0.13 -0.10 0.04 0.07 -0.14 0.04 0.48 -0.43 0.13 0.00 -0.03 0.12 0.01 -0.01 0.08 -0.16 0.27 -0.25 0.16 -0.12 -0.10 -0.04 -0.14 -0.06 0.44 0.02 0.19 0.24 0.04 0.03 -0.42 -0.04 0.52 -0.02 0.08 0.02 0.04 -0.14 -0.18 注:带底纹的表示数据协调度测算结果不一致。
— 20 —
(三)模型结果分析
1.简易模型拟合精度比较好。测算结果显示62组相邻省份中,仅有12组与随机森林估计方法得出的协调度对比结果不一致,判断正确率达到80.6%,表明模型能够较为准确地评估经济近邻省份的数据协调度。
2.简易模型比较适用于总量排名靠前地区的两两比较。lngdp排名前13名的测度结果与随机森林估计方法的结果完全一致。
3.简易模型受特例干扰明显。与天津、海南两两对比出现偏差的近邻省份有5组,表明天津、海南数据协调性与大多数地区不一致,从一定程度上干扰了简易模型判断的准确度。
总之,通过模型验证过程发现,简易模型具有一定的优势与不足。优势在于具有较强的实用性。一是根据欧氏距离来寻找经济相邻地区,实际上反映了总量差距太大的省份竞争相对缓和,数据协调度相对较小地受到对方的干扰;而经济总量相对临近省份,竞争性比较强,数据协调度易受近邻省份空间溢出效应影响;二是一个地区与另一个地区竞相发展,更多的关注与它经济距离相互临近的两个区域,差距太大的省份间,重视程度会有所下降;三是简易模型是根据截面数据推理而来,其推理过程实际上是一种方法性的尝试,随着时间的推移,或许能够快速评估出地区间一定时期内(季度或年度)数据协调度。模型不足在于,模型系数并未进行递延性检验,能否用以度量下一年度数据协调性有待进一步验证;易受特殊情况干扰;外生变量的完整性、合理性无法进行有力度量。
— 21 —
八、结论与建议 (一)研究结论
一是近年来地区数据协调性波动剧烈,除上海、天津、海南外,各地区数据协调性具有协同发展的趋势,个别年份地区间协调度差异比较大。二是在分析地区间竞相博弈对数据协调度的影响效应时,由构建的空间滞后模型得知,经济相邻省份间的数据协调度具有较强的正效应;而区域相邻省份间的数据协调溢出效应并不明显;GDP对数据的协调度具有负效应,而货运周转量、全社会用电量、财政收入的影响为正效应,其中财政收入的正效应最强。三是简易数据协调性评估模型具有一定的实用性。
(二)研究改进方向
本文建立了基于截面数据的地区数据协调度空间滞后模型,为使研究更加科学严谨,还可以从面板数据的角度建立空间面板模型,从时间序列和截面两个维度综合分析空间效应对数据协调度的影响。
(三)几点建议
一是要不断改革和完善当前的统计工作机制,确保统计工作的性和权威性,强化统计基层基础工作建设;二是要进一步加强数据协调性评估,在科学谨慎地把握关联指标间的运行机制及关系的基础上,充分发挥关联指标在数据协调性评估中的作用,在具体实践中,从提高典型性省份或区域的数据协调度着手,充分发挥其局部正向溢出效应,促进更大范围甚至全国的数据协调度的提高;三是要将数据协调性评估的理论研究和实际工作紧密结合起来,提高评估方法的科学性和实用性。
— 22 —
参考文献:
[1]孟连,王小鲁.对中国经济增长统计数据可信度的估计[J].经济研
究,2000(10).
[2]Rawski T G.What’s Happening to China’s gdp Statistics? [J].China
Economic Review,2001(4).
[3]Wu H X.How Fast Has Chinese Industry Grown? Mensuring the Real
Output of Chinese Industry,1949-97[J].Review of Income and Wealth,2002,48(2).
[4]任若恩.中国gdp统计水分有多大——评两个估计中国gdp数据研究的
若干方法问题[J].经济学季刊,2002,2(1).
[5]成邦文,师汉民,王齐庄.统计数据质量检验与异常点识别的模
型与方法[J].数学的实践与认识,2003,33(4).
[6]傅德印.利用控索性数据分析法对统计汇总数据进行质量控制的尝试
[J].数理统计与管理,2001,20(1).
[7] Klein L R,Ozmucur S.The Estimation of China’s Economic Growth Rate
[J].Journal of Economic and Social Measurement,2002/2003,28(4). [8]杨冠琼.中国经济增长数据可信度检验研究:理论、模型与实证检验
[M].北京:经济管理出版社,2006.
[9]刘洪,黄燕.中国统计数据质量的评估方法研究——趋势模拟评估法
及其应用[J].统计研究,2007,24(8).
[10]阙里,钟笑寒.中国地区gdp增长统计的真实性检验[J].数量经济
技术经济研究,2005,04.
— 23 —
[11]赵进文.异常值对计量建模影响的典型案例[J].统计研究,2010,12. [12]中华人民共和国国家统计局,中国统计年鉴2011年[M].中国统计出版
社,2011年.
[13]沈体雁,冯等田,孙铁山:《空间计量经济学》,北京大学出版社,
2010年.
[14]易丹辉:《数据分析与EViews应用》,中国人民大学出版社,2008
年.
[15]薛毅,陈立萍:《统计建模与R软件》,清华大学出版社,2006年.
— 24 —
附录
附1 天津市货物周转量数据遴选和修正
附2 变异系数赋权法原理
利用变异系数进行赋权是根据原始序列的内在规律,对波动剧烈的序列赋予较大的权重,对相对平稳的序列赋予较小的权重,这一点与模糊综合评判赋权原理基本一致,区别在于利用变异系数进行序列波动性衡量相对更加科学,且测算过程更加简单直接。具体步骤如下:首先,求变异系数:CViiCV为变异系数;i=1,2,....n为变量
i,其中
个数;i为第i个变量的方差;i为第i个变量的均值,变异系数越大,变量的波动性越强;变异系数越小,变量的波动性越小;然后,求指标体系总变异系数:
CVCV1+CV2+...CVn;最后,利用相对波动程度进行赋权:
ai=CVinCVi=1。
i— 25 —
附3 聚类分析树状结果图
— 26 —
附4 基于经济发展水平的地区聚类结果 类 别 第一类 北京、天津、上海 第二类 江苏、浙江、山东、广东 第三类 内蒙古、吉林、宁夏、、海南、山西、广西、辽宁、云南、陕西、青海 第四类 河北、黑龙江、安徽、福建、江西、河南、湖北、湖南、重庆、四川、贵州、甘肃、 省 份 附5 基于地区分类的综合依存度 北京市 天津市 上海市 江苏省 浙江省 山东省 广东省 内蒙古 吉林省 宁夏 海南省 山西省 广西 辽宁省 云南省 陕西省 青海省 河北省 黑龙江省 安徽省 福建省 江西省 河南省 湖北省 湖南省 重庆市 四川省 贵州省 甘肃省 2001 0.082 1.513 0.669 0.055 0.224 0.621 0.115 0.221 0.054 0.409 0.150 -1.8 0.604 0.145 0.154 0.260 0.449 0.271 0.343 0.082 0.056 0.145 0.081 0.180 0.042 0.134 -0.258 0.169 0.400 0.268 0.174 2002 0.137 3.083 0.974 0.012 0.219 -0.551 -0.039 0.255 0.0 0.484 0.100 0.023 0.300 0.152 0.152 0.237 0.251 0.273 0.248 0.087 0.354 0.111 0.165 0.181 0.098 0.231 0.116 0.1 0.351 0.245 0.375 2003 0.105 0.314 0.711 0.149 0.237 -0.096 0.037 0.184 0.105 0.233 0.103 0.150 0.221 0.214 0.528 0.170 0.178 0.358 0.212 0.079 0.179 0.265 0.145 0.157 0.156 0.184 0.117 0.110 0.241 0.259 0.163 2004 0.100 6.549 0.879 0.183 0.188 0.146 0.159 0.202 0.112 0.226 -0.051 -0.022 0.198 0.154 0.538 0.121 0.166 0.280 0.287 0.112 0.123 0.162 0.107 0.107 0.138 0.140 0.210 0.083 0.242 0.298 0.195 2005 0.120 1.059 1.159 0.154 0.309 0.182 0.042 0.153 0.032 0.257 0.358 1.272 0.329 0.148 0.206 0.156 0.083 0.159 0.475 0.080 0.169 0.186 0.055 0.107 0.063 0.085 0.115 0.092 0.120 0.321 0.171 2006 0.062 -0.550 1.151 0.171 0.333 0.201 0.072 0.222 0.036 0.335 -0.015 0.799 0.183 0.133 0.347 0.108 0.094 0.122 0.246 0.081 0.158 0.228 0.087 0.077 0.091 0.103 0.309 0.074 0.185 0.153 0.1 2007 0.087 2.402 0.786 0.126 0.194 0.036 0.079 0.196 0.058 0.158 0.146 0.510 0.135 0.142 0.596 0.153 0.108 0.228 0.168 0.067 0.163 0.110 0.090 0.113 0.0 0.097 0.198 0.085 0.130 0.221 0.152 2008 -0.502 -1.785 -0.452 0.073 0.033 0.530 0.047 0.422 0.251 0.737 -0.033 -0.418 0.299 0.319 0.270 0.077 0.298 0.422 0.010 0.211 1.381 0.139 0.582 0.447 0.255 0.118 0.235 0.154 0.091 0.565 0.311 2009 -0.470 -21.71 -7.173 0.117 0.310 0.203 0.124 0.062 0.022 0.160 0.035 0.110 -1.1 0.145 0.060 0.128 0.042 0.385 0.273 0.040 0.236 0.066 0.108 0.334 0.055 0.100 0.151 0.061 0.285 0.214 0.370 2010 0.092 0.014 1.693 0.141 0.248 0.150 0.160 0.196 0.074 0.227 0.070 0.239 0.157 0.167 0.197 0.126 0.104 0.339 0.300 0.088 0.230 0.150 0.155 0.179 0.132 0.110 0.216 0.103 0.156 0.163 0.118 — 27 —
附6 基于随机森林的综合依存度 2001 2002 2003 2004 北京市 天津市 河北省 山西省 内蒙古 辽宁省 吉林省 黑龙江 江苏省 浙江省 安徽省 福建省 江西省 山东省 河南省 湖北省 湖南省 广东省 广西 海南省 重庆市 四川省 贵州省 云南省 陕西省 甘肃省 青海省 宁夏 0.136 0.756 0.318 0.347 0.134 0.182 0.104 0.131 0.138 0.215 0.057 0.165 0.109 0.307 0.141 0.051 0.140 0.177 0.156 -0.354 -0.046 0.153 0.321 0.187 0.062 0.251 0.283 0.171 0.304 0.194 0.206 1.307 0.221 0.272 0.224 0.186 0.101 0.124 0.157 0.220 0.259 0.147 0.137 -0.001 0.193 0.127 0.199 0.169 0.155 0.069 0.150 0.172 0.316 0.278 0.093 0.228 0.259 0.240 0.393 0.345 0.119 0.214 0.176 0.198 0.165 0.371 0.118 0.077 0.154 0.179 0.158 0.226 0.145 0.040 0.143 0.135 0.1 0.113 0.183 0.160 0.133 0.122 0.221 0.170 0.076 0.167 0.246 0.306 0.232 0.135 0.137 2.653 0.237 0.202 0.181 0.399 0.103 0.119 0.185 0.191 0.125 0.155 0.104 0.149 0.104 0.132 0.134 0.161 0.128 0.048 0.191 0.087 0.239 0.158 -0.003 0.158 0.251 0.251 0.2 0.192 2005 0.165 0.519 0.273 0.298 0.160 0.162 0.062 0.073 0.133 0.223 0.159 0.154 0.088 0.133 0.093 0.097 0.096 0.086 0.129 0.6 0.094 0.111 0.143 0.200 0.192 0.099 0.212 0.170 0.278 0.147 2006 0.174 0.022 0.187 0.295 0.177 0.232 0.061 0.121 0.171 0.223 0.167 0.194 0.098 0.153 0.102 0.121 0.113 0.121 0.122 0.421 0.240 0.110 0.224 0.176 0.027 0.136 0.137 0.178 0.329 0.163 2007 0.184 1.087 0.156 0.150 0.181 0.354 0.0 0.072 0.162 0.177 0.152 0.124 0.107 0.093 0.116 0.098 0.105 0.134 0.127 0.323 0.195 0.118 0.154 0.201 0.177 0.135 0.218 0.214 0.190 0.180 2008 0.257 -0.059 0.054 0.222 0.249 0.188 0.181 0.171 0.100 0.092 0.698 0.124 0.315 0.214 0.242 0.162 0.086 0.094 0.201 -0.117 0.171 0.119 0.103 0.149 0.040 0.194 0.342 0.259 0.383 0.237 2009 0.116 -1.053 0.223 -0.924 0.197 0.255 0.084 0.167 0.144 0.254 0.196 0.084 0.137 0.150 0.213 0.078 0.107 0.147 0.197 0.597 0.142 0.092 0.280 0.190 0.075 0.217 0.317 0.433 0.210 0.5 2010 0.178 0.129 0.199 0.153 0.192 0.203 0.105 0.091 0.143 0.162 0.183 0.133 0.140 0.136 0.131 0.118 0.104 0.1 0.157 0.2 0.218 0.127 0.188 0.193 0.127 0.145 0.149 0.267 0.218 0.139 2011 0.245 0.1 0.167 0.155 0.182 0.185 0.131 0.093 0.161 0.193 0.188 0.143 0.131 0.124 0.162 0.138 0.120 0.144 0.137 0.296 0.206 0.121 0.198 0.178 0.222 0.203 0.199 0.239 0.298 0.201
— 28 —
附7 部分随机森林程序相关语句
> w=read.table(\"E:\\\\国家建模\\\\随机森林\\\\2001.txt\> library(randomForest) randomForest 4.6-6
Type rfNews() to see new features/changes/bug fixes. > n=30;zz1=1:n
> zz2=rep(1:5,ceiling(30/5))[1:n] > set.seed(100);zz2=sample(zz2,n) > NMSE=rep(0,5);NMSEO=NMSE > for(i in 1:5){ + m=zz1[zz2==i]
+ A=randomForest(y~.,data=w[-m,],importance=TRUE,proximity=TRUE) + y0=predict(A,w[-m,]) + y1=predict(A,w[m,])
+ NMSEO[i]=mean((w$y[-m]-y0)^2)/mean((w$y[-m]-mean(w$y[-m]))^2) + NMSE[i]=mean((w$y[m]-y1)^2)/mean((w$y[m]-mean(w$y[-m]))^2)} > (MNMSEO=mean(NMSEO));(MNMSE=mean(NMSE))
> library(randomForest)
> SS=randomForest(y~.,data=w,importance=TRUE,proximity=TRUE) > SS$importance
— 29 —
附8 地区数据协调度系数的空间滞后模型估计结果
Model_1估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 区域相邻矩阵.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : -0.331925
R-squared : 0.857328 Log likelihood : 43.1197 Sq. Correlation : - Akaike info criterion : -74.2395 Sigma-square : 0.0046204 Schwarz criterion : -65.0813 S.E of regression : 0.0679735
Variable Coefficient Std.Error z-value Probability W_E -0.331925 0.095066 -3.490653 0.0004819 CONSTANT 0.1005686 0.050074 2.0084 0.0446007 LNgdp -0.4424276 0.05462625 -8.099177 0.0000000 LNHY 0.05585304 0.01841447 3.033107 0.0024206 LNYD 0.13668 0.01477621 9.235577 0.0000000 LNCZ 0.2608654 0.041797 5.619924 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 11.02196 0.0263184
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 区域相邻矩阵.GAL
TEST DF VALUE PROB Likelihood Ratio Test 1 6.760305 0.0093208
========================= END OF REPORT ==============================
— 30 —
Model_2估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k1.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.139314
R-squared : 0.838823 Log likelihood : 40.6602 Sq. Correlation : - Akaike info criterion : -69.3204 Sigma-square : 0.00521967 Schwarz criterion : -60.1622 S.E of regression : 0.0722473
Variable Coefficient Std.Error z-value Probability W_E 0.1393138 0.09586295 1.45326 0.1461516 CONSTANT 0.01428853 0.04137963 0.3453036 0.7298663 LNgdp -0.4415215 0.05934784 -7.439555 0.0000000 LNHY 0.06526887 0.01965049 3.321488 0.00055 LNYD 0.11705 0.01911628 6.223518 0.0000000 LNCZ 0.2713608 0.049161 5.51974 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 14.33 0.0061508
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k1.GAL
TEST DF VALUE PROB Likelihood Ratio Test 1 1.841213 0.1748088
========================= END OF REPORT ==============================
— 31 —
Model_3估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k2.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.27339
R-squared : 0.863085 Log likelihood : 42.6815 Sq. Correlation : - Akaike info criterion : -73.363 Sigma-square : 0.00443397 Schwarz criterion : -.2048 S.E of regression : 0.0665881
Variable Coefficient Std.Error z-value Probability
W_E 0.2733903 0.1155548 2.3652 0.0179866 CONSTANT 0.012027 0.03822105 0.3162988 0.7517758 LNgdp -0.4682602 0.05319724 -8.80234 0.0000000 LNHY 0.06719872 0.01817485 3.697347 0.0002179 LNYD 0.1121355 0.01724613 6.50207 0.0000000 LNCZ 0.3085026 0.04677337 6.5956 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 13.99417 0.0073137
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k2.GAL TEST DF VALUE PROB Likelihood Ratio Test 1 5.883802 0.0152808
========================= END OF REPORT ==============================
— 32 —
Model_4估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k3.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.272487
R-squared : 0.8592 Log likelihood : 42.5638 Sq. Correlation : - Akaike info criterion : -73.1276 Sigma-square : 0.0045577 Schwarz criterion : -63.9694 S.E of regression : 0.0675108
Variable Coefficient Std.Error z-value Probability W_E 0.2724874 0.1337825 2.036794 0.0416706 CONSTANT -0.01741714 0.04076046 -0.427305 0.6691573 LNgdp -0.467857 0.0539438 -8.673045 0.0000000 LNHY 0.07056665 0.01866392 3.780914 0.0001563 LNYD 0.1185142 0.0175197 6.7626 0.0000000 LNCZ 0.2954331 0.04651601 6.351214 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 15.70795 0.0034372
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k3.GAL
TEST DF VALUE PROB Likelihood Ratio Test 1 5.8435 0.0174710
========================= END OF REPORT ==============================
— 33 —
Model_5估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k4.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.225663
R-squared : 0.847450 Log likelihood : 41.5505 Sq. Correlation : - Akaike info criterion : -71.101 Sigma-square : 0.00494031 Schwarz criterion : -61.9428 S.E of regression : 0.0702873
Variable Coefficient Std.Error z-value Probability W_E 0.2256627 0.16181 1.355999 0.1750997 CONSTANT -0.03993283 0.05466331 -0.7305235 0.4650701 LNgdp -0.4569143 0.05638806 -8.103032 0.0000000 LNHY 0.07112302 0.020318 3.500383 0.00047 LNYD 0.1233169 0.01876929 6.570142 0.0000000 LNCZ 0.277057 0.04793038 5.780405 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 15.79949 0.0033004
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k4.GAL
TEST DF VALUE PROB Likelihood Ratio Test 1 3.621794 0.0570273
========================= END OF REPORT ==============================
— 34 —
Model_6估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k5.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.174061
R-squared : 0.839406 Log likelihood : 40.9235 Sq. Correlation : - Akaike info criterion : -69.847 Sigma-square : 0.0052008 Schwarz criterion : -60.6888 S.E of regression : 0.0721166
Variable Coefficient Std.Error z-value Probability
W_E 0.1740609 0.200016 0.8702345 0.3841722 CONSTANT -0.04182842 0.075407 -0.5542826 0.5793854 LNgdp -0.4573993 0.05788593 -7.901734 0.0000000 LNHY 0.06607798 0.02030735 3.2535 0.0011385 LNYD 0.12842 0.01862076 6.926902 0.0000000 LNCZ 0.27430 0.04922243 5.572793 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 15.05212 0.0045943
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k5.GAL TEST DF VALUE PROB Likelihood Ratio Test 1 2.36782 0.1238599
========================= END OF REPORT ==============================
— 35 —
Model_7估计结果:
REGRESSION SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION Data set : 空间滞后模型数据.shp Spatial Weight : 经济相邻矩阵k6.GAL
Dependent Variable : E Number of Observations: 31 Mean dependent var : 0.422197 Number of Variables : 6 S.D. dependent var : 0.179958 Degrees of Freedom : 25 Lag coeff. (Rho) : 0.188
R-squared : 0.841088 Log likelihood : 41.14 Sq. Correlation : - Akaike info criterion : -70.3788 Sigma-square : 0.00514632 Schwarz criterion : -61.2206 S.E of regression : 0.0717378
Variable Coefficient Std.Error z-value Probability W_E 0.1879997 0.2129761 0.8827267 0.3773839 CONSTANT -0.05996733 0.08624126 -0.6953439 0.4868397 LNgdp -0.4609248 0.05737243 -8.033908 0.0000000 LNHY 0.06399268 0.01999306 3.200744 0.0013709 LNYD 0.1320129 0.01761741 7.49332 0.0000000 LNCZ 0.2759782 0.04909957 5.620786 0.0000000
REGRESSION DIAGNOSTICS
DIAGNOSTICS FOR HETEROSKEDASTICITY RANDOM COEFFICIENTS
TEST DF VALUE PROB Breusch-Pagan test 4 14.1224 0.0069145
DIAGNOSTICS FOR SPATIAL DEPENDENCE
SPATIAL LAG DEPENDENCE FOR WEIGHT MATRIX : 经济相邻矩阵k6.GAL TEST DF VALUE PROB Likelihood Ratio Test 1 2.9594 0.0886019
========================= END OF REPORT ============================
— 36 —
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务