基于PCA-PSO-SVM的边坡稳定性预测
孙伟超;韩冰
【摘 要】论文通过主成分分析(Principal Component Analysis,PCA)的方法,对影响边坡稳定性的6个因素(坡高、坡角、内聚力、内摩擦角、容重和空隙压力比)进行了特征提取,消除影响因素间的相关性,降低维数;然后引进支持向量机(Support Vector Machine,SVM)方法对降维处理后的数据集进行训练,并利用粒子群优化方法(Particle Swarm Optimization,PSO)对SVM的参数进行优化;最后,通过对36组工程边坡实例中的31组进行仿真回归,建立了边坡稳定性的PCA-PSO-SVM预测模型,并对余下的5组进行预测.通过对比模型预测结果和实际值得出:模型预测结果的最大绝对误差为0.058,最大相对误差小于3.90%,满足实际工程的需要.从而表明,基于PCA-PSO-SVM算法的边坡稳定性预测模型在实际工程中具有较高的应用价值.
【期刊名称】《石家庄经济学院学报》 【年(卷),期】2018(041)001 【总页数】5页(P60-)
【关键词】边坡稳定性;主成分分析;粒子群算法;支持向量机;预测;工程地质 【作 者】孙伟超;韩冰
【作者单位】河北地质大学勘查技术与工程学院,河北 石家庄050031;河北地质大学勘查技术与工程学院,河北 石家庄050031 【正文语种】中 文
【中图分类】P694 一、引言
边坡的稳定性问题是人类工程活动中的关键问题,它涉及诸多领域,能否正确评价边坡的稳定性直接关系到人民的生命财产安全。虽然边坡失稳没有像地震和洪水那么集中,但由于其数量大、分布广、发生频繁,因此,所造成的总经济损失甚至可能超过了洪水和地震[1]。据《中国统计年鉴》统计,2016年全国共发生地质灾害9 710起,由边坡失稳所引发的灾害约占76%(图1),可以看出,由边坡失稳引发的灾害所占比重很大。故而对边坡稳定性的预测具有重要的理论和现实意义。 图1 不同灾害比例图
由于边坡系统较为复杂,影响其稳定性的因素有很多,这些因素绝大部分都具有很强的不确定性和随机性,边坡的稳定性与这些因素之间具有非常复杂的非线性关系[2]。目前,用于边坡稳定性定量分析的方法主要有人工神经网络、灰色关联度法和Fisher判别法等[3-5]。但这些方法均存在一定的局限性,人工神经网络存在学习率不稳定,容易陷入局部最小的缺点;对于灰色理论来说,当原始数据序列波动较大且信息过于分散时预测精度将会降低。因此,分析边坡稳定性的方法应当充分考虑到影响边坡稳定性因素的不确定性、随机性、数据有限性和复杂多样性等特点。 结合主成分分析方法的特征提取能力和支持向量机方法所具有的在解决小样本、非线性、高维数和局部极小点等实际问题中的优势[6]以及粒子群算法(PSO)所具有的搜索能力强,寻找最优参数快的特点,提出了基于PCA-PSO-SVM的边坡稳定性预测模型。 二、模型原理 (一)主成分分析
1. 主成分分析方法的基本思想
主成分分析(PCA)的基本思想是构造原始变量的适当线性组合,从而产生一系列线性无关的新的综合变量,从中选出少量几个综合变量并使它们含有足够多的原始变量带有的信息[7]。
2. 主成分分析方法的具体步骤 (1)建立样本的观测矩阵
式中,m为样本个数,n为变量个数。
为了解决不同指标间量纲不同不能进行比较的问题,我们对原始数据进行标准化。标准化公式如下: 其中,
(2)数据经过标准化处理后,便可得到其相关系数矩阵R
其中,X*为标准化后的数据矩阵
(3)根据特征方程|λ-R|=0求出其特征根,按特征根λ1≥λ2≥…≥λm的顺序排列并求出对应的正交化单位特征向量e1,e2,…,em。
4m维向量的第i个主成分+emixm,该主成分的贡献率为称为前t个主成分的累计信息贡献率。进行主成分分析的目的之一是为了减少变量的个数,一般不会取全部主成分,而是取前t个,具体可视实际情况而定。通常情况下取前t个主成分的累积贡献率大于80%为宜。 (二)支持向量机
支持向量机是以结构风险最小化原则为理论基础,以构造最优分类超平面为目标的统计学习方法。概括来说,支持向量机就是首先通过内积核函数定义的非线性变换
将输入空间变换到一个高维空间,在这个空间寻找最优分类超平面,使得该超平面在保证分类精度的同时,使分类好的数据距离分类面越远[8]。
设样本集{xi,yi}k,i=1,2,...,n,xi∈Rn,yi∈R,R为实数域。则支持向量机的决策函数表达式为
其中,x表示映射到高维空间中的样本,Φ表示其所对应的非线性映射,b称为偏置值,w称为权值向量,并且w和Φ(xi)均为n维向量。寻找最优超平面即寻找w和b的最优解。考虑到拟合误差的存在,引入松弛变量ξi和,根据结构风险最小化准则,采用ε-SVR模型建立带有约束条件的模型优化函数:
式中,常数c>0为惩罚系数,它控制对超出拟合精度ɛ的样本惩罚程度。建立Lagrange函数:
其中αi,,ri,都是Lagrange乘子。利用(9)式分别对w,b,ξi,求偏导。令它们等于零,得到式(8)的对偶优化问题,找到对应的KKT(Karush-Kuhn-Tucher)条件,并使用二次规划优化算法作为训练算法依次计算得到参数和αi对应的最优乘子,同时得到拟合函数:
三、边坡稳定性预测
(一)边坡稳定性评价指标的确定
边坡稳定性的影响因素有许多,包括坡高、坡角、内聚力、内摩擦角、容重、空隙压力比、地下水、节理、节理面与坡角的关系等[9]。选取坡高、坡角、内聚力、内摩擦角、容重、空隙压力比6个因素作为影响边坡稳定性的因子来预测边坡的稳定性。
根据文献[10]收集到的36个边坡工程实例进行PCA-PSO-SVM预测模型的有效性检验。在这36个样本中随机抽取31个样本数据作为学习样本(表1),剩余5个作为测试样本(表2),用于验证所建立的基于PCA-PSO-SVM边坡稳定性预测模型的准确性。其中,数字“1”代表边坡处于稳定状态,数字“2”代表边坡失稳。
表1 学习样本序号坡高(m)坡角(°)空隙压力比内聚力(kPa)内摩擦角(°)容重(kN/m³)边坡状态150.0045.000.250.1036.0020.002 28.0033.000.300.0040.0024.001 38.0020.000.350.0024.5020.001…………………………………………30359.0042.000.2535.0035.0027.001 31320.0037.800.2537.0035.0027.001
表2 测试样本序号坡高(m)坡角(°)空隙压力比内聚力(kPa)内摩擦角(°)容重(kN/m³)边坡状态1480.0040.000.2510.0039.0027.301
250.0045.000.500.1036.0020.002 34.0035.000.250.0030.0012.001 420.0030.000.2510.0030.3421.401 550.0045.000.2510.0036.0022.002 (二)影响边坡因素的主成分分析
对选定的影响边坡稳定性的因素进行主成分分析,x1、x2、x3、x4、x5、x6分别代表坡高、坡角、内聚力、内摩擦角、容重、空隙压力。利用主成分分析方法对数据进行标准化处理,通过计算得到标准化后的数据的特征值及累计方差贡献率如表3所示。
表3 特征值及累计方差贡献主成分特征值贡献率%累积贡献
率%F12.55342.55542.555 F21.15519.24661.801 F30.84414.06175.863 F40.710.78586.8 F50.5038.37795.025 F60.2984.975100.000
由表3可以看出,前4个主成分包含了原变量所含数据信息的86.8%>80%,可以较为全面的反映影响边坡稳定性的因素,则可用4个新的特征变量(F1,F2,F3,F4)代替原来的6个影响边坡稳定性的因素,并作为支持向量机的输入数据。
F1,F2,F3,F4的线性组合分别为:
(三)支持向量机参数优化的粒子群算法
核函数类型与核函数参数的不同关系到支持向量机的学习效率与运算能力。目前,由于径向基核函数(RBF)处理多元问题具有非线性映射能力强、效率高和需要确定的参数少等优点在实际工程中应用广泛,因此本文选择RBF核函数,其形式如下:
对核函数参数g和公式(7)中的惩罚参数c常用优化方法有网格搜索、粒子群算法和遗传算法等[11-13]。文章采用粒子群算法来确定g和c的值。粒子群算法是一种进化算法,从随机解出发,通过迭代寻找最优解。它是通过适应度来评价解的品质,通过追随当前搜索到的最优值来寻找全局最优。此方法具有实现容易,精度高,收敛快的特点。
文中粒子群算法的各参数值设置为:种群数20、终止代数200、记忆参数c1=1.5、共享参数c2=1.7。经过多次迭代寻优,得到的粒子群算法最优的适应度曲线如图2所示。最优参数确定为c=1.091 7,g=78.550 7,均方误差MSE=0.210 68。基于PCA-PSO-SVM模型对学习样本的仿真回归值与实际值对比如图3所示。 图2 粒子群算法寻优过程
图3 PCA-PSO-SVM学习样本训练图
由图3可以看出基于PCA-PSO-SVM边坡稳定性预测模型对学习样本的仿真回归值与实际值极为接近,可以达到实际工程中边坡稳定性预测的精度要求。 四、结果及其分析
通过建立的PCA-PSO-SVM边坡稳定性预测模型对表2的预测样本进行预测,并与实际值进行对比,预测值与实际值的对比如图4所示。
图4 PCA-PSO-SVM预测结果图
结合图4并通过基于PCA-PSO-SVM边坡稳定性预测模型的预测值与实际值对比(见表4)可以看出:模型的最大绝对误差为0.058,最大相对误差为2.90%,此模型的预测结果与实际值吻合较好,能够满足实际工程的需要。
表4 预测结果与实际值对比序号绝对误差相对误差%1 0.0393.90%2-0.006-0.03%3-0.0101.00%4-0.005-0.50%5 0.0582.90% 五、结论
1. 影响边坡稳定性的因素有很多,他们之间存在着非常复杂的非线性关系,采用一般的方法很难处理。基于PCA-PSO-SVM预测模型,根据有限的样本,建立了影响边坡稳定性的因素与边坡稳定性之间的非线性映射关系。
2. 通过对测试样本的预测并对比模型的预测结果,发现预测结果均能与实际值较好的吻合,能够满足工程实际需要。文章中边坡稳定性的PCA-PSOSVM预测模型的建立为分析实际工程和理论研究提供了一种新的思路,具有广泛的应用前景,并且该方法对稳定性分析在其他方面的应用也具有一定的参考价值。
[1] 李朋丽, 田伟平, 李家春. 基于BP神经网络的滑坡稳定性分析[J]. 广西大学学报(自然科学版), 2013(4): 905-911.
[2] DING T, ZHOU H C. Prediction method research based on radial basis function neural network [J]. Journal of Harbin Institute of Technology, 2005, 37(2): 272-275.
[3] XIA Y, XIONG H. Sensibility analysis of slope stability based on artificial neural network [J]. Chinese Journal of Rock Mechanics & Engineering, 2004, 23(16): 2703-2707.
[4] 尹吉娜, 杨杰, 任杰, 等. 基于灰色关联分析的边坡稳定影响因素敏感性评估[J]. 合肥工业大学学报:自然科学版, 2015(1):75-78.
[5] BAI Y, JIANG L. Fisher’s discriminant analysis model for forecasting stability of slope [J]. Nonferrous Metals, 2010,62(2): 49-52.
[6] 袁颖, 李绍康, 周爱红. 基于PCA-GA-SVM的火成岩分类方法研究[J]. 数学的实践与认识, 2017, 47(12): 121-128.
[7] 张尧庭, 方开泰. 多元统计分析引论[M]. 武汉: 武汉大学出版社, 2013. [8] 周爱红, 尹超, 袁颖. 基于主成分分析和支持向量机的砂土渗透系数预测模型[J]. 云南大学学报:自然科学版, 2016, 38(5):742-749.
[9] 王浩. 边坡稳定性影响因素及评价方法[J]. 黑龙江交通科技,2011(7): 110-111. [10] 冯夏庭, 王泳嘉. 边坡稳定性的神经网络估计[J]. 工程地质学报, 1995, 3(4): 54-61.
[11] 郭超, 宋卫华, 魏威. 基于网格搜索-支持向量机的采场顶板稳定性预测[J]. 中全科学学报, 2014, 24(8): 31-36.
[12] 谢玮, 王彦春, 刘建军, 等. 基于粒子群优化最小二乘支持向量机的非线性AVO反演[J]. 石油地球物理勘探, 2016, 51(6):1187-1194.
[13] 季斌, 周涛发, 袁峰. 遗传算法优化支持向量机矿产预测方法[J]. 测绘科学, 2015, 40(10): 106-109.