国家财政收入的影响因素
【摘要】
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,获得了模型的回归系数估计值,
然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了一系列的统计检验,并对模型进行了消除序列相关性的改良,使模型通过了各个统计的检验。
之后,我们代入所给数据1953年-1980年的各项经济指标,得到预测值与实际值的拟合效果较好,预测较准确。
最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。
关键词:MATLAB Eviews 财政收入 回归模型 LM检验 序列相关性
一、 问题重述
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。
二、 问题假设
1. 财政收入只可能与问题重述中提到的6个因素有关,而与其它因素无关;
2. 所给数据真实准确,无录入错误。
3. 不考虑偏差大的数据,在建模中把异常点的数据剔除。
三、符号说明
y:财政收入; x1:国民收入; x2:工业总产值; x3:农业总产值; x4:总人口; x5:就业人口; x6:固定资产投资;
β0,β1,β2,β3,β4,β5,β6:回归系数; E:随机误差。
X1(-1),X3(-1),X6(-1):x1,x3,x6的一阶滞后项; YF:财政收入的预测值
四、问题分析、模型的建立与求解
首先对数据作初步分析。分别用MATLAB作出财政收入与6个因素的散点图,从中找出异常的点,从而把异常的点所对应的数据剔除:
财政收入(亿元1000900800700600500400300200100500100015002000国民收入25003000
图1 x1-y散点图
财政收入(亿元100090080070060050040030020010001000200030004000工业总产值500060007000
图2 x2-y散点图
财政收入(亿元1000900800700600500400300200100400500600700800900农业总产值1000110012001300
图3 x3-y散点图
财政收入(亿元10009008007006005004003002001005.566.577.58总人口8.599.51010.5x 104
图4 x4-y散点图
财政收入(亿元10009008007006005004003002001002345就业人口67x 1084
图5 x5-y散点图
由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点图如下:
财政收入(亿元100090080070060050040030020010022.53就业人口3.544.5x 104
图6 去掉异常点后的x5-y散点图
财政收入(亿元10009008007006005004003002001000100200300固定资产投资400500600
图7 x6-y散点图
从以上的散点图可以看出财政收入Y与x1~x6大致都呈现线性的关系,我们再引入一个常量回归系数β0,作出了初步的模型:
y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+E 〔1〕
首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点〔见图6〕,之后利用MATLAB统计工具箱中命令regress求解,得到模型〔1〕的回归系数估计值及其置信区间〔置信水平α=0.05〕、检验统计量R2,F,p的结果见表1。
参数 β0 β1 β2 β3 β4 β5 β6 参数估计值 R2=,F=,p=0.0000
参数置信区间 -366.5816 表1 模型〔1〕的计算结果
表1显示,R2=指因变量y〔财政收入〕的98.40%可由模型〔1〕的自变量的变化来解释,F值远远超过F检验的临界值,p=0远小于α,因而模型〔1〕从整体来看是可用的。
ˆ0-15.5344表1的回归系数给出了模型〔1〕中β0,β1,β2,β3,β4,β5,β6的估计值,即β,
ˆ60.3419。ˆ10.5100,βˆ2-0.0259,βˆ3-0.5905,βˆ40.0113,βˆ5-0.0230,ββ检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。从估计结果来看,
模型可能存在多重共线性。原因如下:在5%的显著性水平下,由置信区间可以看出除x1与x3外,所有回归系数的t检验值均小于临界值;但F统计量的值225.53远远大于临界值,且拟合优度很高,解释变量对被解释变量有显著的解释性能力。
应用Eviews软件,采用菜单操作可得各解释变量之间的相关系数表,结果见表2:
表2
从上图可以看出六个解释变量之间两两简单相关关系都在80%以上,甚至有的在98%以上,超过了拟合优度,这说明模型存在严重的多重共线性。
根据以上的分析,我们采用逐步回归法来确定回归模型。
第一步,用每个解释变量分别对被解释变量做简单回归,从而决定解释变量的重要程度,为解释变量排序。应用Eviews软件,采用菜单操作可得各解释变量与被解释变量的拟合优度:x1的拟合优度R2=0.951223 x2的拟合优度R2=0.937951、x3的拟合优度R2 =0.843960 、 X4的拟合优度R2= 、x5的拟合优度R2 = x6的拟合优度R2 =
根据t统计量的大小排序,可见解释变量的重要程度依次为:x1,x6,x2,x4,x5,x3 。 第二步,以1为根底,依次引入x6,x2,x4,x5,x3 。 根据逐步回归法的原那么,最终确定的模型〔2〕为: 〔2〕 其中其模型的分析结果为:
表3 模型〔2〕的计算结果
由上表可以看出,模型〔2〕的所有变量的参数都通过了t检验,且F值为440.96,比模型〔1〕的F值大很多,这说明模型的显著性是可以通过的。但模型〔2〕的DW值是1.505283,又对于显著性水平α=0.05,n=29,k=3,查D-W分布表,得到检验的临界值dLU=1.56,由此
可知,模型〔2〕的DW值位于临界值dL和 dU之间,因此不能判断模型是否存在序列相关性。
下面用LM检验检验模型〔2〕是否存在序列相关性,首先检验模型的一阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表4:
表4
由上图可得,存在一阶序列相关的概率P=0.3585>0.05,所以认为模型存在一 阶序列相关性。
下面检验模型是否存在两阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表5:
表5
由上图可知,存在两阶序列相关的概率P=0.0311<0.05,所以认为模型不存在两阶序列相关
性。
综上两点可知,模型〔2〕只存在一阶序列相关性,不存在两阶或两阶以上的序列相关性。下面应用Eviews软件,采用菜单操作运用广义差分法进行自相关的处理。所得结果为表6:
表6 修正后的模型〔2〕的计算结果
由此可知,在Eviews软件包下,1阶广义差分的估计结果为:
Y=170.0423+0.396846X1-0.49698410X3+0.36841X6+0.217615AR(1) 〔3〕
AR(1)前的参数值为随机干扰项的一阶序列相关系数。对于显著性水平α=0.05,n=28,k=3,
查D-W分布表,得到检验的临界值dLU=1.56,又由上图可知, 修正后的模型〔2〕的DW值为1.599760> dU=1.56且<4-dU,由此认为修正后的模型〔2〕不存在一阶序列相关性。所以修
正后的模型为:
Y-0.217615Y(-1)=163.1010(1-0.217615)+0.406223(X1-0.217615X1(-1))-0.49127(X3-0.217615X3(-1))+0.330958(X6-0.217615X6(-1)) 〔4〕
5.结果分析
从外表上看,经过用广义差分法修正后的模型〔2〕已经不存在序列相关性了,这就说明模型排除了序列相关性的干扰。用广义差分法修正后的模型〔2〕的拟合度已经到达了R2=0.98,这说明财政收入的98%可以由解释变量x1、x3、x6解释。
残差E=F-FY可以作为随机误差的估计值,画出随机误差E的走势图〔图8〕能够从直观上判断ε的自相关性。
图8 修正后的模型〔2〕E的走势图
从图8可以看出,随机误差项E的走势大概呈现标准正态分布的趋势,这说明E几乎不存在自相关性了。
下面,我们将使用修正后的模型〔2〕对之前数据进行评价: 年份 实际值 1953 1954 216 248 197.04预测值 241.8454 88 年份 1960 1961 实际值 506 271 预测值 年份 实际值 预测值 年份 实际值 预测值 1955 254 1956 268 1957 286 1958 357 1959 444 1965 393 1962 230 1963 266 19 323 30 1966 466 1967 352 1968 303 1969 447 1970 5 1971 638 1972 658 1973 691 1974 655 1975 692 1976 657 1977 723 1978 922 1979 0 1980 826 表7 财政收入的预测值与实际值比照
10009008007006005004003002001001950YYF195519601965197019751980
图9 财政收入预测值与实际值的拟合图
从上可以看到,预测值与实际值还是相当吻合的。
之后,我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资,代入模型〔2〕。结果如下: 年份 1990 2000 年份 1990 2000 国民收入 工业总产值 农业总产值 总人口 就业人口 固定资产投资 5146 112954 126743 财政收入〔实际值〕 4517 财政收入〔预测值〕 44052 表8 1990年和2000年财政收入预测值与实际值比照 数据来源自?CNKI中国统计年鉴数据库?
从表8可以看到,1990年预测值与实际值和2000年的预测值都相差较大,原因不一定是模型建立的偏差大,还有可能是其他原因,如在查阅数据时,我们就发现了2000年的工业总产值数据注明了“1990年不变价格〞,而其余数据没有此说明项;且1980年后国家实行了改革开放的经济,经济的开展规律发生了很大的变化,用1980年以前的数据建立起来的模型去预测1980年后的一些经济数据自然会有较大的偏差。
并且,在固定资产投资一栏,我们查到了非常详细的分类,固定资产投资资金来源中国家预算内资金,固定资产投资资金来源中国内贷款,固定资产投资资金来源中自筹和其他资金等备注,而题目并未给出,这给我们筛选数据带来了极大的困难。
总的来说,模型对于1952-1980年的经济数据来说,依然有一定的参考价值和预测价值,但由于各种方面的原因与因素,对于1990年和2000年预测值与实际值的匹配程度是有限。
五、模型的评价
优点
模型的决定系数R2=0.98较高,且都是一次项,计算简便。 消除了模型中出现的序列相关性和多重共线性,对1952~1980年之间的数据预测效果较好。 缺点
对1981年之后的数据预测值逐渐产生偏差,只适用于预测所用数据的时间段,有效的预测时间段较段。
六、模型的推广与改良
从前文的分析来看,我们认为1981年后,物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据,假设补充上物价衡量指数,消费水平指数〔CPI〕等数据,模型的拟合度效果应该会更准确,而且加上这些因素后,对以后时间段的预测应该会更长,偏差也会更小。。
七、附件
〔1〕导入数据的程序:
a=xlsread('C:\\Documents and Settings\\syzx10\\桌面\\新建 Microsoft Excel 工作表.xls') 〔2〕画散点图的程序: 图1
plot(a(:,2),a(:,8),'*'); xlabel('国民收入'); title('财政收入(亿元'); 图2
plot(a(:,3),a(:,8),'*'); xlabel('工业总产值'); title('财政收入(亿元'); 图3
plot(a(:,4),a(:,8),'*'); xlabel('农业总产值'); title('财政收入(亿元'); 图4
plot(a(:,5),a(:,8),'*'); xlabel('总人口');
title('财政收入(亿元'); 图5
plot(a(:,6),a(:,8),'*'); xlabel('就业人口'); title('财政收入(亿元'); 图6
plot(a(1:29,6),a(1:29,8),'*'); xlabel('就业人口'); title('财政收入(亿元');
图7
plot(a(:,7),a(:,8),'*'); xlabel('固定资产投资'); title('财政收入(亿元');
〔3〕模型〔1〕的MATLAB程序:
x1=[598,586,707,737,825,837,1028,1114,1079,757,677,779,943,1152,1322,1249,1187,1372,1638,1780,1833,1978,1993,2121,2052,21,2475,2702,2791]';
x2=[349,455,520,558,715,798,1235,1681,1870,1156,9,1046,1250,1581,1911,17,1565,2101,2747,3156,3365,3684,3696,4254,4309,4925,5590,6065,6592]';
x3=[461,475,491,529,556,575,598,509,444,434,461,514,584,632,687,697,680,688,767,790,7,855,1,932,955,971,1058,1150,1194]';
x4=[57482,58796,60266,61465,62828,653,65994,67207,66207,65859,67295,69172,70499,72538,74542,76368,78534,80671,82992,85229,87177,211,90859,92421,93717,94974,96259,97542,98705]';
x5=[20729,213,21832,22328,23018,23711,26600,26173,25880,25590,25110,260,27736,28670,29805,30814,31915,33225,34432,35620,35854,36652,37369,38168,38834,39377,39856,40581,416]';
x6=[44,,97,98,150,139,256,338,380,138,66,85,129,175,212,156,127,207,312,355,354,374,393,462,443,454,550,5,568]';
Y=[184,216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,5,638,658,691,655,692,657,723,922,0,826]'; X=[ones(29,1),x1,x2,x3,x4,x5,x6]; [b,bint,r,rint,stats]=regress(Y,X)
〔4〕求得的各解释变量与被解释变量的拟合优度的结果
〔5〕、根据逐步回归的方法所得到的一些分析结果:
〔6〕:用MATLAB画财政收入与财政收入预测值的拟合图的程序: 848,305.6149,233.9238,255.0631,...
301.5687,377.6023,431.35,376.7942,349.9542,448.8678,553.8521,614.6158,635.7772,667.8887,662.9507,...
718.7919,672.9797,723.4487,829.0786,878.6001,3.5268]
Y=[216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,5,638,658,691,655,692,657,723,922,0,826]; x=1953:1980; plot(x,Y,'*',x,YF) legend('Y','YF')
【参考文献】
[2] John O. Rawlings, Sastry G. Pantula, David A. Dickey Applied Regression Analysis:A Research
Tool(?应用回归分析〔英文版〕?)[M].New York,USA:Springer,1998 [3] 李子奈 ?计量经济学教程?
[4] 刘国卫 ?MATLAB程序设计教程? [5] CNKI中国统计年鉴数据库 n