当今人类社会已经进入了大数据时代,数据大多呈现出维数高、规模大、结构复杂等特性。在大数据的研究当中,许多数据如媒体数据、遥感数据、生物医学数据、社交网络数据、金融数据等都是高维数据,尤其是在人类生产生活中,含高维数据的无解析模型或一次候选解的评价计算成本十分巨大的昂贵多目标问题,对其仿真求解势必面临维数灾难。因此,寻找合适的降维方法处理高维数据已是迫切需求。
神经网络是模拟人脑的结构和功能而建立起来的分布式信息处理系统,面对高维多目标优化等非线性问题,与其他降维方法相比,神经网络具有巨大的优势,这得益于神经网络具有高度非线性、结构复杂、自学习、自适应等特点。RBF神经网络是一种新颖有效的前馈式神经网络,它具有很强的非线性映射能力,能以任意精度全局逼近一个非线性函数,而且学习速度快。利用RBF神经网络实现对高维数据的降维预处理,不仅有充分的理论依据,而且更具优越性。本文在对RBF神经网络算法进行优化研究的基础上,研究了基于数据驱动的特征选择RBF神经网络降维方法,并将其应用在高维多目标优化决策空间降维预处理及Pareto优劣性预测中。
为了提高RBF神经网络的学习效率,本文首先对RBF神经网络进行改进研究。通过自适应调节RBF神经网络的学习率和动量因子,加快了RBF神经网络的收敛速度;同时,利用遗传算法对RBF神经网络的三个参数初始值进行优化设计,提出了一种遗传自适应RBF神经网络算法。将改进算法分别应用于故障诊断和UCI数据集的分类实验上,验证了改进RBF神经网络算法的有效性和优越性。
针对无解析模型的高维多目标优化问题,提出了一种最大信息系数与最大相关最小冗余相结合的特征选择方法,利用遗传自适应RBF神经网络算法在高维特征空间中选取出了一个低维的特征子集,从而实现对高维特征空间的降维。通过在UCI数据集上的分类实验,证明了该降维算法在保证较好分类精度的前提下,大大减少了计算成本。
为了降低高维多目标优化的维数灾难,将本文提出的基于最大冗余最小相关的遗传自适应RBF神经网络特征选择算法用于多目标优化中的决策空间降维预处理,进行Pareto优劣性预测并将其嵌入MOEAs算法。通过与NSGA-II的实验效果对比,结果证明了本文提出的遗传自适应RBF神经网络特征选择算法在保证得到一个可接受的Pareto最优解的前提下,大大减小了计算成本,避免了维
IV湖南理工学院硕士学位论文Abstract数灾难。
关键词:RBF神经网络;高维数据降维;最大相关最小冗余;特征选择;Pareto
优劣性预测
V湖南理工学院硕士学位论文AbstractAbstract
Nowadays,humansocietyhasenteredthebigdataera,andmostofthedataarecharacterizedbyhighdimensionality,largescaleandcomplexstructure.Inthestudyofbigdata,manydatasuchasmediadata,remotesensingdata,biomedicaldata,socialnetworkdataandfinancialdataarehighdimensionaldata,especiallyinthehumanproductionandliving,ancontaininghighdimensionaldataexpensivemulti-objectiveproblemwithnoanalyticmodelorhighcostofancandidatesolutionsevaluation,anditssimulationmustcausedimensionaldisasters,anditssimulationmustcausedimensionaldisasters.Therefore,itisurgenttofindasuitablemethodtodealwithhighdimensionaldata.
Neuralnetworkisadistributedinformationprocessingsystembasedonsimulatingthestructureandfunctionofbrain,Inthefaceofhigh-dimensionalnonlinearmulti-objectiveoptimizationproblems,neuralnetworkshavegreatadvantagesoverotherdimensionalityreductionmethods,whichareduetotheirhighlynonlinear,complexstructure,self-learningandself-adaptivecharacteristics.Radialbasisfunction(RBF)neuralnetworkisanovelandeffectivefeedforwardneuralnetwork,whichhasstrongnonlinearmappingability,canapproximateanonlinearfunctiongloballywitharbitraryaccuracy,andhasafastlearningspeed.UsingRBFneuralnetworktoreducethedimensionalityofhighdimensionaldatanotonlyhassufficienttheoreticalbasis,butalsohasmoreadvantages.Thispaperfocusesonthedimensionalityreductionmethodbasedondata-drivenfeatureselectionRBFneuralnetwork,andappliesittoclassificationandParetodominanceprediction.
InordertoimprovethelearningefficiencyofRBFneuralnetwork,thispaperfirstlystudiestheimprovementofRBFneuralnetworkAlgorithm.ByadjustingthelearningrateandmomentumfactorofRBFneuralnetworkadaptively,theconvergencerateofRBFneuralnetworkisaccelerated.Atthesametime,theinitialvaluesofthreeparametersofRBFneuralnetworkareoptimizedbygeneticalgorithm,andageneticadaptiveRBFneuralnetworkalgorithmisproposed.TheimprovedalgorithmisappliedtofaultdiagnosisandtheclassificationexperimentsofUCIdatasetsrespectively,andtheeffectivenessandsuperiorityoftheimprovedRBFneuralnetworkalgorithmisverified.
Aimingatthenoanalyticmodelhighdimensionalmulti-objectiveproblem,thispaperproposesafeaturemethodcombiningthemaximuminformationcoefficient
VI湖南理工学院硕士学位论文Abstractwiththemaximumcorrelationminimumredundancy,andthenusinggeneticadaptiveRBFneuralnetworkalgorithmselectalowdimensionalfeaturesubsetinhighdimensionalfeaturespace,soastorealizedimensionreductionofhighdimensionalfeaturespace.ThroughtheclassificationexperimentontheUCIdataset,itisprovedthatthedimensionalityreductionalgorithmcangreatlyreducethecalculationcostonthepremiseofensuringbetterclassificationaccuracy.
Inordertoreducethedimensiondisasterofhigh-dimensionalmulti-objectiveoptimizationproblems,thefeatureselectionalgorithmofgeneticadaptiveRBFneuralnetworkbasedonmaximumredundancyandminimumcorrelationwasappliedtothedimension-reductionpreprocessingofdecisionspace,thenpredicttheParetodominanceandembedthepredictionalgorithmtoMOEAS.BycomparingwiththeexperimentalresultsofNSGA-II,theresultsshowthatthefeatureselectionalgorithmofthegeneticadaptiveRBFneuralnetworkproposedinthispapergreatlyreducesthecalculationcostandavoidsthedimensiondisasteronthepremiseofobtaininganacceptableParetooptimalsolution.
KeyWords:RBFneuralnetwork;Dimensionalityreductionofhigh-dimensionaldata;Maximumcorrelationminimumredundancy;Featureselection;Paretodominanceprediction
VII湖南理工学院硕士学位论文目录目录
摘要........................................................................................................IVAbstract......................................................................................................VI第1章绪论..........................................................................................1
1.1研究背景与意义..............................................................................................11.2研究现状..........................................................................................................2
1.2.1高维数据降维研究现状........................................................................21.2.2
RBF神经网络研究现状.....................................................................9
1.3本文研究内容................................................................................................10
第2章RBF神经网络结构与算法分析.................................................11
2.1RBF神经网络结构.........................................................................................112.2RBF神经网络学习算法................................................................................12
2.2.1参数计算..............................................................................................122.2.2学习步骤..............................................................................................142.3RBF神经网络逼近理论................................................................................152.4RBF神经网络存在的缺陷及其原因............................................................162.5小结................................................................................................................16
第3章一种RBF神经网络改进算法...................................................17
3.1RBF神经网络学习率和动量因子的优化方法............................................17
3.1.13.1.23.2.13.2.2
学习率和动量因子的自适应调整....................................................17仿真实验结果及分析........................................................................17算法框架............................................................................................21实验结果及分析................................................................................22
3.2遗传自适应RBF神经网络学习算法..........................................................21
3.3小结................................................................................................................24
第4章基于最大相关最小冗余的RBF神经网络降维方法...............25
4.1最大信息系数和最大相关最小冗余............................................................25
4.1.14.1.24.2.14.2.2
基于决策分量与目标分量二维投影的网格划分............................27最大信息系数与最大相关最小冗余特征选择................................28最大相关最小冗余RBF神经网络降维算法构造..........................28仿真实验结果及分析........................................................................29
VIII4.2最大相关最小冗余RBF神经网络降维算法..............................................28
湖南理工学院硕士学位论文目录4.3小结................................................................................................................34
第5章RBF神经网络降维方法在高维多目标优化中的应用............35
5.1Pareto优劣性预测方法介绍..........................................................................35
5.1.1决策空间冗余维和等价维的定义......................................................355.1.2基于分类的Pareto支配性预测方法..................................................365.2应用RBF神经网络降维方法预测Pareto优劣性......................................38
5.2.15.2.25.3.15.3.2
最大相关最小冗余RBF神经网络预测Pareto优劣性..................38实验结果及分析................................................................................39降维和预测与MOEAS的集成框架................................................42实验结果与分析................................................................................42
5.3降维和预测与MOEAS的集成....................................................................42
5.4小结................................................................................................................45
第6章结语..........................................................................................46
6.1结论................................................................................................................466.2展望................................................................................................................47
参考文献....................................................................................................48攻读硕士学位期间主要研究成果...........................................................55致谢........................................................................................................56
IX湖南理工学院硕士学位论文第1章绪论第1章
1.1研究背景与意义
绪论
随着科技日新月异的发展,数据的采集技术愈加成熟,各行各业的数据开始能被大量获取和保存。于此同时人们在用计算机进行数据处理和应用时也发现,数量庞大的数据还会呈现属性众多、数据间的关系难以准确测度、结构化程度低等特性,这样的数据被称为高维数据。现实生活中许多数据都是高维数据,如气象监测数据、金融统计数据、航天航空采集数据、蛋白质设计数据等等。在对这些数据进行分析计算时计算复杂度往往会呈指数增长,出现“维数爆炸”。因此挖掘高维数据间的潜在关系,识别其本征特征,进行数据降维处理十分必要。
在处理这些高维数据并按照需求优化求解时,大多数情况下人们的需求并不是单一的,而是希望在这些数据中找到一些同时能满足好几个目标的数据集,但很多时候满足这些目标的最优解往往不能同时获得,这种问题就是多目标问题,在数据集中搜索最优解并建立模型的过程即多目标优化。多目标优化是优化领域中一个重要的研究内容,它是由单个目标优化延伸而来的求解多个目标的最优值的过程。这些目标的最优解往往是互相冲突的,最优化某个目标可能会导致另一目标退化,即某一个目标的最优解很有可能是某个目标的最劣的解。在人类生产生活的诸多领域之中,许多实际问题本质上都是多目标问题[1]。且这些问题通常还会呈现高维性,如气象监测、金融投资、商品生产、购物、建筑设计、科学研究。具体来说,如工厂在设计产品时会要求产量高、成本低、质量好等,但通常产品的产量高就意味着成本高,成本低就意味着质量低,不可能同时最大限度的满足。类似的还有顾客在金融投资中希望投入小、风险低、收益高。这就使得产品设计的推进变得异常困难。因此研究如何解决多目标问题对生产和生活都有着重大意义。
由于多目标问题解集的冲突性,使得人们不可能通过单一的优化计算得到同时满足所有目标的一组最优解,所以在求解时,可以通过逐步优化所有目标的解来得到多组各目标最优解的折中解集合。目前,多目标进化算法是解决多目标优化问题得到折中解集十分有效的方法。多目标进化算法是模仿自然界生物种群在生存中为了适应环境而自然地进行一系列地选择、杂交、变异的进化过程从而优胜劣汰出适应程度高的个体的一个过程的算法。在进化算法中,决策空间由种群个体构成,目标空间由与每个个体对应的目标值构成,进化算法的本质就是计算决策空间每个个体(个体通常是一个多维向量)的适应度值(适应度函数通常是目标函数的映射,其映射结果应遵循越接近目标值的个体适应度值越高的原则)并根据适应度值排序,在排序后的种群中搜索出高适应度值的数个个体参加选择、交叉、变异操作的过程。其中,我们把计算适应度值并排序这一过程称为决策向量评估,这也是进化算法的核心过程。
1湖南理工学院硕士学位论文第1章绪论但人们在应用多目标进化算法求解实际问题的过程中发现,高维的决策向量,会使得评估高维向量所需要的样本个数与维数成指数增长的关系,导致计算量急剧增加,如果不进行适当的降维,很多在低维空间具有良好性能的算法在高维决策向量的分析上变得不可行,以致难以对样本的统计特性进行评估和对样本进行有效的分析,这就是著名的“维数灾难\"问题。而且对于那些目标函数无解析模型,或仅一个目标的候选解的性能评估就要以空间和时间为代价十分耗时耗力的昂贵多目标问题来说,基于评估目标函数值和约束函数值的多目标进化算法计算成本过高。
面对这些高维数据带来的一系列问题,最直接有效的方法就是降低维数,得到能够最真实反映数据本征特征的低维数据,直接减少计算成本。因此降维方法本质上可分为两种,即特征选择和特征提取。神经网络流行之后,有学者发现,其作为一种提取输入数据特征进而预测输出结果的计算模型,显然是一个十分行之有效的降维方法。其中,径向基函数(RBF)神经网络作为一种前馈神经网络模型,具有结构简单、逼近性能好、全局寻优能力与泛化推广能力强同时计算量少等优点目前被广泛应用于函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、智能控制和故障诊断等领域。但在实际应用中,人们发现RBF神经网络中的输出权重、隐单元中心和宽度的取值对它的性能有很大影响,因此必须选取合适的输出权值、隐单元中心和宽度系数,以提高RBF神经网络的性能。因此,研究如何优化设计RBF神经网络以提高其性能,及进一步将其用于高维数据的预处理,实现数据降维、减少计算成本十分必要。
1.2研究现状
1.2.1高维数据降维研究现状
高维数据降维本质上是减少数据的特征或目标维数。从减少特征维数的方法来说,有特征提取和选择两种方式。
特征提取是根据各个特征数据间存在的某种联系通过将原始特征空间进行映射变换得到一组新的、不同于原始特征的特征,这组特征的数量通常要比原始特征数量少。根据变换方式的不同,特征提取方法又可分为线性变换特征提取和非线性变换特征提取。其中线性变换方法中最典型的有:PCA——主成分分析法(PrincipalComponentAnalysis)[2]、LDA——
[3]线性判别分析法(LinearDiscriminantAnalysis)和MDS——多维尺度算法(Multidimensional
Scaling)[4]。但现实中的大多数数据并不是单一的线性数据,对于这些高维的非结构化的非线性数据,显然线性变换方法并不适用。为了处理非线性数据,在PCA和LDA的基础上引入核技术形成了核主成分分析法(KernelPCA,KPCA)[5]与核线性判别法(KernelLDA,KLDA)[6],这类方法的基本思想就是通过插入一个核函数将在低维空间中线性不可分的数据映射到高维空间使得其线性可分后用线性变换方法实现特征提取降维。这种方法较好的解决了一部分的非线性数据的降维,但是基于核函数的非线性降维方法一个至关重要的步骤就
2湖南理工学院硕士学位论文第1章绪论是选择核函数,而核函数通常都是根据经验选取,需要人为把控难以对数据进行泛化处理。此后,学者们基于几何流行的概念,提出了一类基于流行学习的非线性特征提取降维方法,最早的流行学习方法是2000年分别由Tenenbaum等提出的等距映射法(IsometricFeatureMapping,IOSMAP)[7]和Roweis提出的局部线性嵌入法(LocallyLinearEmbedding,LLE)
[8]。IOSMAP能使得数据在高维结构上的距离关系映射到低维结构上保持不变,很好的保存
了原始特征间的高维结构,但是它要求数据的流行结构必须是凸结构,这样才能保证高维流行结构上较远的点得以准确降维。但是高维数据间的结构关系较为复杂,其流行结构也不一定呈凸形,且由于要找出相距远的点的测地距离,因此算法的时间复杂度也很高。而LLE则不需要及计算数据间的距离,而仅需计算稀疏矩阵,只需考虑局部邻近点,保持局部领域样本间的线性关系即可。这种局部保持的性质在非凸结构上也同样适用,因此LLE的应用领域要比IOSMAP更广,但是LLE算法没有充分考虑到数据的高维结构特性,尤其是当数据集的数据较为稀疏时,数据与数据的近邻区域很可能不在同一平面上,这样实施降维后的误差就会很大,降维效果会受到极大影响。为了解决这个问题,学者们又先后提出了基于概
[9]SNE)率计算的随机近邻嵌入(StochasticNeighborEmbedding,、分布随机近邻嵌入t-SNE[10][11]和大规模高维数据可视化(Large-scaleVisualizing,LargeVis)等非线性特征提取降维方法。
此外,神经网络的兴起也为高维数据的非线性降维提供了一个新的思路,神经网络学习的本质就是提取输入数据的有效信息从而实现对输出的分类和拟合,因此神经网络是一种有效可靠的特征提取方法,常见的神经网络有BP神经网络、卷积神经网络CNN以及径向基神经网络RBF,其中RBF神经网络由于其结构简单、不易陷入局部极小、泛化能力好等特征应用最为广泛。
不同于特征提取,特征选择并不产生新的特征,而是在原始的特征空间中选取一组特征子集,这组特征子集最能表达整体的数据信息,从而使得最终构造的模型更优。过滤、封装和嵌入是主要的三种特征选择形式。过滤法的特点是需要给定一个特征评估准则,根据这个准则来选取或剔除特征;封装法则是根据后续学习的效果,进行特征添加或删减;嵌入法融合了过滤法的思路,先使用某种机器学习算法训练,而后得到各个特征的权值系数,根据权值系数的大小来选取特征。
按照评分准则的不同常用的过滤法可分为:评分法(FilterScore)[12],这类方法的主要思想是通过计算各个特征的发散程度或与目标的相关程度(通常是相关系数)对特征进行打分,而后给定一个分数阈值或者特征个数阈值,根据这个阈值来选取特征;互信息法[13]和基于特征间距离计算的Relief法[14]。但由于过滤法的将特征选择过程与分类器是割离开的,尽管算法的时间复杂度大大减小但是并不能保证得到一个最优特征子集。封装法通过结合学习算法来评估特征子集则解决了这个问题,常用的评估算法有支持向量机SVM、决策树、遗传算法等。但是由于封装法的需要对各个情况下的特征子集进行评估,因此封装法的计算量大,时间复杂度较高,且评估标准要靠学习算法的准确性来度量,需根据数据的特性选择不同学习算法,算法泛化性并不高。嵌入式算法[15]的提出则很好的平衡了以上两者,它将特征选
3湖南理工学院硕士学位论文第1章绪论择算法作为学习算法中的子过程,在保证了特征子集的目标识别精度情况下减少了计算量,加快了算法的运行速度也泛化性也较好。
经年来,随着高维数据降维技术的发展,多目标优化问题中的高维数据降维也逐渐成为了一大研究热点。各种降维算法开始慢慢出现。多目标优化高维空间降维方法是基于传统的多目标优化进化算法提出的改进算法,为了更好解释多目标优化问题高维空间降维的发展历程,首先我们需要对多目标优化的概念及传统的多目标优化算法有一定了解。1.2.1.1多目标优化问题概念
多目标优化问题的数学本质是一类极大极小问题。即给定取值区域和一系列约束条件,在这个区域上和约束条件下,多个目标都能求得最大值或者最小值。通常情况下,这些目标可以通过一些先验知识转化为单一的目标来求解,但是在没有先验知识的情况下,目标无法做出取舍和转化就需要分析各个目标的重要性和相关性,从而采用适合的优化方法对目标求解。为此,学者们从著名的经济学定律Pareto定律中受到启发,将Pareto优劣性的概念引入以求解多目标优化问题。尽管无法的到传统意义上的最优解,但可以通过判断候选解指间的Pareto优劣性,最终得到Pareto最优解,而由于Pareto最优解的特性,最终得到的解一般不会是单独的一组Pareto最优解,而是由多组相互间不存在支配关系的Pareto最优解构成的Pareto最优解集。为了更便于理解多目标优化问题,需了解以下几个定义:
Def1.1(多目标优化问题):以最小化多目标问题为例,一个带约束条件的多目标优化问题的数学表述如下:
min yF(x)(f1(x),f2(x),,fm(x)),x(x1,x2,,xn)Xy(y,y,,y)Y12ms.t.
gi(x)0,i1,2,,s
minxjmax,j1,2,,n
(1-1)
其中,x为n维决策向量,X是决策空间,y为m维目标向量,Y为目标空间,F是将n维决策空间映射到m维目标空间的向量函数,该函数由m个子映射函数构成,
gi(x)0,i1,2,,s为x需满足的s个约束条件,minxjmax,j1,2,,n为x的可行域。
Def1.2(可行解):基于定义1.1,在所有的候选解中如果存在一个n维的候选解向量
x,若xX满足公式(1-1)的约束条件即gi(x),i1,2,,s且minxjmax,j1,2,,n,那么称这样的x为多目标优化问题中的可行解。
Def1.3(可行解集):由所有可行解构成的可行解的集合称为可行解集,记做Xp,
XpX。
Def1.4(Pareto优劣性),假设Xp是式(1-1)的可行解集,x(x1,x2,,xn)与
4湖南理工学院硕士学位论文第1章绪论x'(x'1,x'2,,x'n)为可行解集中的任意两个可行解,x,x'Xp,比较x,x',当且仅当满足:
i1,2,,m, fi(x)fi(x')且j1,2,,m, fj(x)fj(x')
(1-2)
则称x是x'的Pareto支配解xx',或者x'被x支配,记做x'x,否者x与x'不存在支配关系,即x与x'不可比,记做x'~x。
Def1.5(Pareto最优解),对于可行解集中的任一可行解x*Xp,在可行解集除x外的可行解中,当且仅当满足:
xXp,xx*
(1-3)
即不存在一个除x*外的可行解x能够支配x,则称x为Pareto最优解或Pareto非支配解。
Def1.6(Pareto最优解集),由Pareto最优解组成的集合,记做
Xp*x*xXp,xx*。
Def1.7(Pareto前沿),由Pareto最优解集Xp*中的所有Pareto最优解x*对应的目标向量集合组成的曲线称为Pareto前沿,记做PF{F(x*)(f1(x*),f2(x*),,fm(x*))x*Xp*}。
一般而言,人们在实际生产应用当中并不会将整个Pareto最优解集作为最后的求解结果,而是根据不同的需要或偏好,通过观察Pareto前沿的分布曲线,抽取其中的代表性信息,从最优解集中选取与之对应的一个到几个Pareto最优解。1.2.1.2传统进化多目标优化方法
从多目标问题的定义就可以看出,求解多目标问题解的过程,就是算法在候选解集合中搜索可行解,再从可行解集中搜索Pareto最优解集,使之对应的目标向量集收敛在Pareto前沿的过程,本质上是一类搜索算法。为了使结果尽可能真实可靠,对算法的性能要求主要就是两个,第一是最终要使得算法的最终搜索结果收敛在更接近真实Pareto前沿的曲线上,即保证算法的有效收敛性,第二是最终得到的收敛结果可靠性高,也就说Pareto前沿的分布覆盖范围广、分布特性好,这就要求算法可行解要多样化,搜索全局化。在这样的前提下,传统的数学求解方法显然就显得效率低下,且随着问题的复杂度增高计算成本也会呈现指数增长的趋势。
1967年,Rosenberg提出采用基于进化的搜索算法[1]来处理MO问题,为MO问题的求解提供了一个新的思路。1975年,J.Halland提出了一种模拟生物遗传进化过程的遗传算法(GeneticAlgorithms,GA)[16],它通过一定的策略在搜索保留当前种群良好个体的基础上,通过一代代的进化操作产生新个体更新解空间,使算法逐渐向着更适应的方向收敛,这种情况下,无需先验知识也能实现全局搜索。1984年DavidSchaffer改进了单目标遗传算法,并首次将遗传算法用于Mops处理,提出向量评估遗传算法VEGA[17],从此多目标优化问题的研究走向了新领域——进化多目标优化(EvolutionaryMultiobjectiveOptimization,EMO)。这个
5湖南理工学院硕士学位论文第1章绪论时期后来也被看作是多目标进化算法的起源时期。
自此之后,许多学者纷纷转入进化多目标优化算法的研究当中。其中,早期最具代表的几种算法有多目标遗传算法[18](MultiObjectiveOptimizationGeneticAlgorithms,MOGA),小MOGA是1993年,Fonseca生境Pareto遗传算法NPGA[19]和非支配排序遗传算法NSGA[20]。
等基于遗传算法的框架的基础上提出的。其基本思想就是给算法中每个参与进化的种群个体按支配性划分等级,处于相同等级中的个体分配同一适应度值。但MOGA的优化效果十分依赖分配适应度值的共享函数,如果共享函数设置的不好,容易使得某个或某几个个体的适应度值远远大于其他适应值而高速繁殖,进化群体多样性就会大大降低,很容易让算法过早收敛陷入局部最优。1994年,Horn等提出的NPGA,就较好地解决了这个问题。他在MOGA的基础上加入了拥挤度的概念,采用基于拥挤度的共享函数,并改进了遗传算子引入了一种新的选择机制——锦标赛选择机制来筛选种群个体。通过另外设置一个外部子集(通常是占整个种群大小的百分之十)作为每一轮进化的比较集来比较某一随机个体与该子集的非支配关系保留优秀个体,若个体与子集互不支配则计算当前一轮的锦标赛中的个体拥挤度,决定保留哪个个体,而无需给每个个体分配明确的适应度值,因此收敛速度较快且在很多代内解都很多样,这就避免了算法“早熟”,但由于小生境锦标赛规模的设置需通过反复实验或经验的到合适的大小,使得算法比较受限,也降低了种群的多样性,并不适合广泛应用到实际中。而同年,Deb等提出的NSGA则通过每次搜索剩余种群中非支配个体来给种群排序分层,对每一轮搜索到的个体按照其各自在种群中的占比大小分配相应适应度值,直到搜索完种群中的全部个体。尽管NSGA在某种程度上能较好的处理多目标问题,但是这种分层排序的方法实际操作时计算效率很低且搜索全局的能力不强,没能保留下每次进化中的精英个体,同样应用起来也十分不便。
基于上述问题,1999年Zitzler等人将Pareto优劣性的概念引入到优化算法当中,提出了强度Pareto进化算法SPEA[21]。在这个算法中,Zitzler等人通过在进化中设置的一个外部子集来保留当前进化的Pareto非支配个体,对档案集中的每个个体都分配适应度值,其适应度值就是这个个体所支配的个体与当前种群之比,而整个种群中除外部子集外的其他个体的适应度值则为外部子集中能支配它的非支配解的适应度的和。随着进化到后期外部子集的规模必定会越来越大,当子集规模超出一定大小后再通过聚类来去除档案集中相对较劣的个体,这样一来每轮进化中的精英个体得以保留。尽管这个算法存在适应度分配机制较为模糊、种群的多样性不好、计算度高等缺点,但是其中保留进化中精英个体的概念使解的收敛方向和分布特性都较好地满足了要求。同时期,Knowles和Corn为保持进化种群的多样性提出了基于网格的Pareto非支配存档进化策略PAES[22],在进化过程中采用(1+1)的进化策略,该策略没有选择操作,而是在进化开始时只产生一个个体将其作为父代,父代先变异生成一个子代,比较父子代个体,将其中的非支配解存档,并在整个进化种群中使用网格排挤机制来维持种群的多样性。此后,多目标进化算法的研究又进入了一个新的阶段——基于精英保留策略的多目标优化算法。以精英保留策略优化多目标问题的算法有,2000年,Knowles等又
6湖南理工学院硕士学位论文第1章绪论基于网格思想提出了Pareto包络选择算法PESA[23],PESA用超网络计算拥挤的方法修改了选择个体选择机制,提升了算法的效率。2001年,他们又继续对PESA算法的选择方法做改进,以网络选择的方式替代个体选择,提出了PAES-II[24]。2002年,受精英策略的启发,Deb等人改进了他们提出的NSGA,在NSGA的基础上更改适应度的计算方式提出了NSGA-II[25],用拥挤距离计算适应度值,引入精英保留策略,选择精英个体作为子种群参与进化并合并父种群和子种群,根据适应度来决定合并种群中的个体哪些将作为下一代种群,使得最终Pareto解的分布性和优劣性都得到了十分明显的提升。PESA-II和NSGA-II作为这个时期典型的精英保留进化算法至今任得到了十分广泛的应用。此外,同时期还涌现了其他优秀的精英保留进化多目标优化算法,如2000年,Veldhuizen等人提出的多目标混合遗传算法MOMGA[26],2001年,Erickson改进了NPGA,引入了支配的策略提出了第二代NPGA,即NPGA2[27],同年Coello提出了具有两种维持种群多样性方法的微观遗传算法[28](Micro-geneticAlgorithm,Micro-GA)。
紧接着上个阶段之后,从2003年开始,多目标进化算法开始有了一系列新特点。首先,进化机制不单一地局限于遗传进化而是有了更多新的进化机制;其次,也开始探索非线性的高维多目标问题的合理算法。针对进化机制,Coello等将模拟蚂蚁寻找路径的行为的蚁群算法作为多目标优化算法的进化机制,提出了多目标粒子蚁群(Multi-ObjectiveParticalSwarmOptimization,MOPSO)[29]。Jiao和Gong等以人体在免疫时只要有少数的抗体被激活则多种抗体就能同时起作用为灵感提出了基于人体免疫机制的非支配领域免疫算法(NondominatedNeighborImmuneAlgorithm,NNIA)[30]。该算法在收敛时提高了在Pareto非支配前沿的稀疏区域的搜索能力,尤其在处理高维多目标问题时,远优于传统以遗传算法为进化机制的经典算法。Zhang和Zhou等人则通过分析Pareto最优解集在决策空间中的分布结构,在此基础上提出了基于规则模型估计方法的多目标分布估计算法[31-32](RegularityModelbasedMulti-objectiveEstimationofDistributionAlgorithm,RM-MEDA),该算法采用局部PCA分析决策空间中候选解的分布特性,构建一个决策空间与目标空间的概率分布模型,然后进行目标求解。最终结果也表明了,如果变量间存在关联信息,那么其效果要优于NSGA-II。Zhang和Li则结合运筹学中的分解策略,将其与多目标优化问题结合在一起,提出了基于分解的多目标进化算法MOEA/D[33]。
1.2.1.3高维多目标问题的决策空间降维进化优化方法
针对高维多目标问题中的目标空间降维问题,Deb等在研究中发现了目标空间中存在目标维冗余的现象,基于这个现象,在NSGA-II的基础上Deb等人将PCA用于目标空间降维,提出了基于主成分分析降维的非支配排序遗传算法[34]。Brockhoff[35]等提出一种新的判断Pareto优劣性的准则——有误差的松弛Pareto优劣性,基于此,采用贪婪算法搜索能够满足误差准则的最小目标向量集合,从而降低目标维数。Lopez[36]受无监督学习机制的启发,提出一种基于聚类的降维方法。公茂果等在其文献[37]中列举了早期高维目标空间的降维方法。
7湖南理工学院硕士学位论文第1章绪论Saxena和Deb[38]等又在PCA降维的基础上进一步提出PCA非线性降维方法。Singh[39]等则运用一种启发式算法,来识别目标空间中的冗余目标,最后提出边界Pareto占优点的重点搜索进化算法。
昂贵多目标问题是指无明确的函数解析模型,建模成本和仅单独一次的计算成本就十分高昂的多目标问题[40-41]。
Zhang[42]等针对中规模决策空间的昂贵单目标优化问题,采用基于距离相似性测度的Sammon[43]映射技术将决策空间降维,在决策的训练样本上建立高斯过程代理模型。实验表明,对决策变量降维可降低建模难度和预测的计算复杂度,并可提高模型的预测精度。Yang等针对决策空间建模,在RM-MEDA的基础上,采用局部线性法构造决策空间解模型,提出一种混合估计分布算法[44]。张冬梅基于主曲线理论提出一种多种分型主曲线模型多目标演化算法[45],利用主曲线理论寻找一条能决策空间数据分布中央的曲线,对决策空间数据的分布进行非线性建模,同时构建一个种群密度的分布概率模型,在加快算法收敛速度的同时使得数据能够满足均匀分布。2011年,朱建凯等人基于决策空间数据分布的流行结构,通过在多目标进化算法中引入SOM算法,提出了基于SOM的流行学习的多目标优化算法[46]。算法中将高维决策空间映射到了低维,并挖掘出了个体的局部特征,加快了算法收敛速度。Wang[47-48]等采用决策变量筛选技术,将原问题分解成一组降维的独立子空间和子问题,再采用MOEA/D算法优化各子问题以获得原问题的Pareto非劣解集。虽然决策变量筛选方法有利于消除原问题的冗余维,但因为降维可能丢失有用的信息而导致子问题失真。当原决策空间不存在各子问题的独立子空间时,这一方法不能简化子问题和降低计算复杂度。此外,该方法的决策变量筛选算法依赖于解析函数计算,不能用于EMOP降维。多目标进化算法的更多研究成果可参考[49-54]。
EMOP决策变量的高维性不但会增加Pareto序关系建模的难度,还会降低代理模型的性能。如文献[55-56]所述,研究高维决策空间EMOP降维的文献不多见,大多数建立代理模型辅助求解EMOP的方法都是面向低维决策空间。一旦决策空间维数过高,那么问题的建模都将变得极其困难,故仍需要进一步研究[55]。
为了克服代理模型建模困难的问题,Guo等人通过分析多目标进化算法解变化的本质规律提出了Pareto优劣性预测的方法。Guo[57]在假设类的条件概率服从正态分布的情况下,用贝叶斯分类器对决策空间的候选解进行分类,一个类中的某个决策向量如果对另一类中的某个决策向量存在支配关系,那么前者类中的所有解都能支配后者类的这个决策向量。接着,Guo等提出了最近邻预测方法,且取得一些成果:基于归一化的二进制串加权[58]与距离序列号[59]的方法,能实现数量存在极大差异的多目标问题的优化;通过分析实验又发现了决策空间中的决策向量存在等价维这一现象,郭观七、尹呈[60]等在基于等价分量交叉相似性测度方法中,定义了等价子向量贡献率的概念,研究用最近邻分类对多目标优化问题的Pareto支配性进行预测。尹呈、曾文静、郭观七等[61]为了进一步提高预测的精度,修改了候选解间原始Pareto支配性关系,提出了d-Pareto支配性最近邻分类预测方法。结合多目标优化的自身特
8湖南理工学院硕士学位论文第1章绪论点,给出了d-Pareto支配性最近邻预测框架,并论证了d-Pareto支配性预测比Pareto支配性预测具有更低的平均预测错误率。同时也初步研究了d-Pareto支配性预测与多目标进化算法的交互作用。几个经典多目标优化实验表明,d-Pareto支配性具有一定的可行性和有效性,可以很好的嵌入到经典多目标优化算法中,提高算法的准确率和精度,并且对运算时间和成本有了一个有效的减少;基于Sammon降维方法的Pareto支配性预测[62],为了能够精准使用最近邻预测方法,基于等价维的识别,实现了决策空间的映射降维;分析相关性的预测方法[63],通过构建序关系模型,提高了分类的准确度;基于决策空间变换的预测方法[64],则通过变换决策空间,提高了决策分量最近邻与对应目标分量最近邻的相似度。但是对于如何进一步定义等价维冗余维的概念并采用合理有效的方法挖掘决策空间中的等价维和冗余维,将其进行合理的降维映射仍然有许多内容需要研究。而在诸多方法中,研究用机器学习的方法挖掘信息并进行回归预测显然是其中一个重要的课题。1.2.2
RBF神经网络研究现状
径向基函数RBF方法是适用于多维空间插值的数学方法。径向基的理论最早是由Hardy,Harder和Desmarais等人提出的[65],Broomhead和Lowe在他们1988年发表的论文[66]中对比RBF与多层神经网络,首次将RBF用于神经网络设计并提出一种三层结构RBF神经网络模型。该结构一经提出,因其结构简单、学习速度快、逼近能力好等优良特性,使得人们开始纷纷投入到RBF神经网络的研究之中。研究中,人们发现,在实际应用中,RBF神经网络的学习算法决定了其优势能否充分利用。RBF神经网络的学习通常包括确定网络结构和优化网络参数两个任务。针对确定网络结构,人们先后提出了确定隐层结构的聚类方法。其1989年Moody和Darken在他们发表的文章[67]中提出的k-means聚类以确定中最早的就是,
隐层神经元的个数、中心值以及宽度。但由于K均值算法需一些先验参数,如中心的数目以及中心值,而这些参数的合适值难以确定。故又有人先后提出了最近邻聚类算法[68]和广义竞争学算法[69]。但这类聚类算法都需预先给定相关初始参数,为了确定合适的隐层结构往往需要试错,这就使得计算复杂度极高,计算代价很大。为此,Rouhanni和Javan提出了两种启发式算法MS算法和MDC算法[70]来无需任何初始参数的情况下确定网络的神经元个数、中心和宽度。但随着问题规模的增大,他们生成的网络往往过去复杂,泛化性差。
针对网络参数优化,参数优化最开始是使用最小二乘法或者梯度下降算法来调整输出的权值,但仅仅优化输出权值而不对隐层结构的参数进行调整,整个网络对确定隐层结构算法的初始值过于依赖,一旦初始值不合理,整个网络就需要调整。González等人为了解决这个问题,在他们发表的文章[71]中在RBF神经网络的训练中使用了多目标进化算法来自动调整隐层网络参数。赵志刚[72]等利用遗传算法优化神经元的中心位置和宽度。廖金权[73]同样针对中心和宽度,用蚁群算法来优化加快网络的收敛速度。但这些方法都将网络结构和参数分开优化,难以得到兼顾网络复杂度和性能的最优模型。而在此之后提出的采用误差、距离等参数对网络进行结构和参数调整的方法如正交最小二乘[74]、最小资源分配网络[75]、动态衰减调
9湖南理工学院硕士学位论文第1章绪论整[76]、LM算法[77]等有着易陷入局部最优或者网络规模过大或计算资源浪费等问题。Wu[78]等人提出的HC学习算法解决了这些问题,但是该算法只适用于单输出前向神经网络。
如何进一步提高学习算法的效率,优化网络并将其用于数据挖掘和降维迄需深入研究。
1.3本文研究内容
本文的主要研究内容是针对高维无解析模型的复杂多目标优化问题,研究采用模式识别的方法挖掘高维空间中特征之间和特征与目标之间的联系,从高维特征中选出一个低维的特征子集实现高维特征的降维并将其应用在进化多目标优化算法中的Pareto关系预测,选择RBF神经网络算法进行模式识别,同时针对RBF神经网络训练算法存在的问题,研究一种能改进RBF神经网络收敛速度和泛化程度的训练算法。
第2章,分析RBF神经网络的结构和算法,并指出RBF神经网络存在的一些缺陷和原因。
第3章,针对传统的RBF神经网络学习算法中的学习率和动量因子设定为固定值,从而影响网络的学习效率和学习能否成功的问题,提出了一种RBF神经网络自适应学习方法,根据学习情况对学习率进行自适应调整,使算法快速收敛。针对传统的RBF神经网络的参数初始值一般凭经验设定,从而带来因取值不合理影响网络的学习速度和学习效率的问题,研究了利用遗传算法对RBF神经网络的参数初始值进行优化设计的方法,提出了一种遗传自适应RBF神经网络学习算法。应用故障诊断和数据分类的实例分别对改进的RBF神经网络算法进行验证,证明了算法的优越性。
第4章,针对高维特征空间引起的维数灾难问题,提出了一种最大信息相关系数与最大冗余最小相关相结合的特征选择方法,并基于遗传自适应RBF神经网络算法实现了该特征选择方法。将基于遗传自适应RBF神经网络的特征选择算法应用于高维特征空间的特征选择,实现对高维特征空间降维,以降低处理该类问题时建模和预测计算的难度,提高预测的准确性。通过数据分类实验,验证了该方法在高维数据降维中的有效性。
第5章,采用最大相关最小冗余遗传自适应RBF神经网络预测Pareto优劣性,并将基于RBF神经网络的Pareto优劣性预测算法嵌入MOEAs。通过典型多目标优化函数的测试实验,证明了该算法大大减小了计算成本,避免了维数灾难。
第6章,总结了本文中的所有工作,并提出不足。
10湖南理工学院硕士学位论文第2章RBF神经网络结构与算法分析第2章
2.1RBF神经网络结构
RBF神经网络结构与算法分析
RBF神经网络是一个由输入层、映射层和输出层构成的简单三层网络,其中输入层不做任何变换,只起到一个信号传递的作用,其结构如图2-1所示。RBF网络中的每个隐藏节点围绕一个中心节点参数向量发生径向对称响应。隐含层使用的传输函数通常有多种,典型的径向基函数有:
(1)线性函数
(XCj)1XCj(2)三次函数
(2-1)
3(XCj)1XCj(3)二、三次函数
(2-2)
3(XCj)1XCj(4)薄板样条函数
2XCj2(2-3)
(XCj)1XCj(5)多二次函数
2lnXCj(2-4)(2-5)
(XCj)(XCj2)1/2,为常数。
(6)逆多二次函数
(XCj)
(7)高斯函数
1XCj222(2-6)
(XCj)e
XCj22(2-7)
假定x为输入样本,X[x1,x2,,xi,,xn]T隐含层的输出为:
(x)[1(x),2(x),...,j(x),...,m(x)]T,
则隐含层第j个单元的输出为:
xcj2b2j
2
(2-8)
j(x)e
,j1,2,...,m
(2-9)
11湖南理工学院硕士学位论文第2章RBF神经网络结构与算法分析其中,cj为第j个隐含神经元的中心点的坐标向量cjcji[cj1,cj2,,cjn]T,i1,2,,n;bj为第j个隐含神经元高斯核函数的宽度。
RBF网络隐含层与输出层之间的连接权值为:
Wkk1,k2,,km,k1,2,,s
T(2-10)
其中,m为隐含层单元数,s为输出层单元数。
RBF输出层神经元输出为:
Y[y1,y2,,ys]Tykkjj(x),k1,2,,s
j1m(2-11)(2-12)
kj为第k个输出神经元与第j个隐含神经元之间的调节权重。
图2-1RBF神经网络拓扑结构图
2.2RBF神经网络学习算法
RBF神经网络学习算法一般可分为两个步骤,首先是网络结构即隐含层节点个数的确定,其次是基函数中心、方差(扩展常数)和隐含层与输出层间的权值三个参数的计算和调整。2.2.1
参数计算
RBF神经网络的参数计算一般也是两步,第一步,参数初始化计算,第二步,根据某种准则如误差来调整参数直至网络收敛。参数初始化的方式跟隐含层核函数的选择有着很大的关系,而在实际应用中,由于高斯核函数有着良好的局部响应特征且函数值会随着其与中心点的距离增大而单调递减,并逐渐趋向于0,因此被广泛应用。采用高斯函数作为径向基函数时,参数的初始化方式多种多样,其中一种就是基于样本数据直接计算,这种参数初始化及其网络实际输出的计算方式如下:
12湖南理工学院硕士学位论文第2章RBF神经网络结构与算法分析(1)初始化隐含层至输出层的连接权值:Wk[wk1,wk2,,wkp]T,(k1,2,,q)wkjminkjmaxkminkq1(2-13)其中,p是隐藏单元数,q是输出单元数,mink、maxk分别为第k个输出神经元目标输出的极小极大值。(2)初始化隐含层各神经元的中心参数Cj[cj1,cj2,,cjn]。不同隐含层神经元的中心应有不同的取值,并且能与其的对应宽度互相调节,使得不同的隐含神经元能最大程度输入信息特征。综上,中心参数的初始值为:Tcjiminimaximinimaximini(j1)2pp,,d(2-14)p为隐含单元总个数,j1,2,,p,mini、maxi是第i个特征输入信息的最小、最大值。(3)初始化宽度向量Dj[dj1,dj2jn]T。每个隐含层神经元上输入信息的作用范围都受该神经元上的宽度向量影响,宽度计算方法:djidfdf为值小于1的调节系数。1N(xk1Nkicji)(2-15)(4)计算隐含层第j个神经元的输出值Zj:Zjexp(XCjDj2),j1,2,,p(2-16)Cj是第j个隐含神经元的中心向量,Cj[cj1,cj2,,cjn]T;Dj对应的宽度向量,Dj[dj1,dj2,,djn]T,代表欧式范数。(5)计算输出层神经元的输出Y[y1,y2,,yq]Tykwkjzj,k1,2,,qj1p(2-17)其中wkj为第k个输出与第j个隐含层单元间的权重。用经上述步骤得到的初始值计算得到一个RBF神经网络的实际输出后,绝大多数情况下仍需通过进一步地逐步调整这些参数值,最终得到一组能使得网络收敛在一个实际输出与期望输出最大程度吻合的参数值。最常用的参数调整的方法就是梯度下降算法。数学上将函数增长最快的方向称为梯度方向,则相反的方向即梯度下降的方向就是函数
13湖南理工学院硕士学位论文第2章RBF神经网络结构与算法分析减少最快的方向。在机器学习的模型优化过程中,当求解最小值时,要得到最优解就需要朝着梯度下降的方向走,我们把这种按照梯度搜索技术求得最优解的算法称为梯度下降算法。梯度下降算法是一种十分典型的求取极小值的算法。而在RBF神经网络的训练过程中,在利用梯度下降算法最小化代价函数来完成输入层到输出层的映射时,代价函数通常定义为误差函数。
1NS
E(yikOik)2
2i1k1
(2-18)
其中,N代表输入样本总个数,S代表输出神经元总个数,yik表示第i个样本输入时第k个输出神经元的实际输出,Oik表示第i个样本输入时第k输出神经元的期望输出。利用梯度下降算法训练RBF网络的过程中,我们需要以迭代的方式不断地调整网络中的参数直至误差最小化。kj(t)kj(t1)E[kj(t1)kj(t2)]wkj(t1)(2-19)cij(t)cij(t1)E[cij(t1)cij(t2)]cij(t1)E[dij(t1)dij(t2)]dij(t1)(2-20)dij(t)dij(t1)(2-21)其中,kj(t)表示第t次迭代时第j个隐含神经元与第k个输出神经元之间的权重;cij(t)表示第t次迭代时第i个输入神经元在第j个隐含神经元上的中心分量;dij(t)为cij(t)所对应的宽度值;迭代过程中的学习率,为动量因子。2.2.2学习步骤
通过2.2.1节中的参数计算步骤,RBF神经网络算法的学习步骤如下:Step1:初始化隐含层节点数nhnino输出层的节点数,np为学习样本个数。Step2:按2.2.1中的(1)~(3)对神经网络参数进行初始化,并给定学习率和动量因子的取值及迭代终止精度的值。Step2:按2.2.1中的(4)、(5)式计算隐含层、输出层神经元的输出。Step3:计算输出误差RMS:np2,nh、ni、no分别为隐含层、输入层、14湖南理工学院硕士学位论文Nq第2章RBF神经网络结构与算法分析RMS(Oi1k1lkylk)2qN(2-22)若RMS,则停止迭代;否则,转至Step4。Step4:按照(2-19)~(2-21)式,对调节权重、中心和宽度参数进行迭代计算。Step5:更新迭代次数,转Step2。2.3RBF神经网络逼近理论
RBF神经网络训练实际上是通过一个隐含层的映射实现将输入层低维不可分的数据转换到高维实现线性可分的过程。因此当隐含层神经元足够多时,RBF神经网络能逼近任一连续函数。
Def2.1
n令SK为径向基函数神经网络,它是由函数:RdR组成,其中
xtj),G:RdR是隐含节点的径向基函数,即G几乎处处连续且满足
j(x)jG(
j1jRdG(x)dx0,并且(1,2,,n),则对于任何一个输入输出映射函数f(x),(x)在
Lp(p[1,])范数下接近于f(x)。
基于Def2.1,LiuB和SiJ又证明了以下定理。
Def2.2设G为只含一个隐含层的高斯RBF神经网络集,其激活函数为:
gk(x)e
xx(k)22,
x(k)(
2k12k112k21
,,,d),k2N2N2N,
k(k1,k2,,kd)Zd,ki1,2,,N,i1,2,,d},则对于任一在Id[0,1]d上的C2函数
f,在G中存在最佳逼近G0,且最佳输出g0(x)与f(x)满足fg0
2Idd2M0M2M12M0M2(i)Msumf(x),xId且i0,1,2。,其中i224N当
B2且0时,定理2中的不等式即为fg02,其中NNIdM12(22d1)M0M2B。
4
Def2.2表明如果满足条件(1/N),则含Nd个隐含节点的高斯RBF神经网络可以误差界O(N2
)逼近Id上的C2函数。
15湖南理工学院硕士学位论文第2章RBF神经网络结构与算法分析2.4RBF神经网络存在的缺陷及其原因
RBF神经网络具有很强的非线性映射功能且在理论上已经证明了它是前馈网络中实现映射的最优神经网络,但是RBF神经网络在应用过程中也存在局部震荡、收敛速度慢等缺陷,其泛化性能尚不能令人十分满意。
影响RBF神经网络性能的原因主要是:
(1)RBF神经网络训练的目的是要确定中心、方差(扩展常数)以及权值这三个参数,如果它们的初始值选择不当,显然会直接影响RBF神经网络的训练效果。
(2)由于RBF神经网络是通过将输入层映射到高维的隐含层以实现在高维线性可分,因此,隐层节点个数选取对网络的性能影响也很大。一方面如果隐含层节点个数选取不合理很容易使得网络性能降低;另一方面,一旦输入层节点数过多,那么隐含层节点的个数也将急剧上升,就会造成计算成本过大且网络收敛速度很慢。
(3)尽管RBF神经网络有着很好的全局逼近能力不易陷入局部极小,但这并不意味着它能完全避免陷入局部最小,特别是当采用梯度下降算法训练网络时如果学习率和动量因子设置不当,那么网络就会一直在一个局部极小值附近震荡。
2.5小结
径向基函数(RadialBasisFunction)神经网络,简称RBF神经网络,这是一种特殊的前馈神经网络。它用RBF作为网络隐含层单元的“基”,实现低维到高维的线性可分。本章介绍了RBF神经网络的结构和基本思想,探究了RBF神经网络学习算法的流程及有关参数的设计方法。讨论了RBF神经网络逼近理论,指出若隐节点的宽度数都相同,则RBF神经网络能在一个紧集上逼近任何连续函数,同时分析了RBF神经网络仍存在的缺陷及其原因。
16湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法第3章一种RBF神经网络改进算法
针对RBF神经网络存在的缺陷,本章将对RBF神经网络进行优化设计,以提高RBF神经网络算法的学习效率和网络的泛化性能。
3.1RBF神经网络学习率和动量因子的优化方法
3.1.1
学习率和动量因子的自适应调整
网络学习过程中,学习的速度很大程度受学习率与动量因子的影响,学习率与动量因子过小则网络收敛很慢,过大则误差常常会过大以致网络无法收敛。所以在训练过程中需对学习率和动量因子做手动调整,但这样一来就降低了网络学习的自主性。因此为了兼顾网络训练的自主性及进一步加快收敛速度,本文考虑对学习率和动量因子进行自适应调整,设计了一种自适应RBF神经网络算法。
该算法的基本思想是:先设定一个初始学习率和动量因子,在学习过程中,根据每次训练后得到的总体误差E(t+1)与上一次训练后得到的总体误差E(t)的大小关系,对学习率和动量因子进行动态调整。如果一次迭代之后误差增大,说明调整无效,应适当减小学习率和动量因子,按原来方向重新计算下一次迭代;如果误差减小,则调整有效,应适当增大学习率和动量因子,继续进行下一次迭代。学习率和动量因子的具体调整方法如下:
)0.95E(t)1.1(t),E(t1
(t1)0.9(t),E(t1)1.05E(t)
(t),others)0.95E(t)1.1(t),E(t1
(t1)0.9(t),E(t1)1.05E(t)
(t),others
(3-1)
(3-2)
式中,t0,1,2,,T1,T为设定的最大学习次数。3.1.2
仿真实验结果及分析
本文将自适应RBF神经网络应用于模拟电路故障诊断,作者选择的实验电路是AD公司提供的电压单端差分转换器,该电路比较简单并具有一定代表性和实用性。
电压单端差分转换器电路如图3-1所示。
17湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法图3-1电压单端差分转换器电路电压单端差分转换器电路中,双通道AD648是一款低功耗、单片运算放大器,Vcc=10V,Vee=-10V,并对整个电路提供正负电源;V3为1V的频率为1kHz的正弦信号源,R1、R3、R4、R5、R6分别假设为故障点,在仿真时设置为开路。
本文从PSpice获取的电路仿真数据集里选取165组数据作为RBF神经网络的训练样本数据,另选12组数据作为检验样本数据,样本数据覆盖各种故障类型,如表3-1和表3-2所示。本例设置的故障类型包括无故障(正常)、R1开路、R3开路、R4开路、R5开路和R6开路,其编码分别为000、001、011、100、101和110。
表3-1RBF神经网络训练样本数据序号123456789┆164165RBF神经网络输入量V3输出10.500.9999-0.503-10.9999-0.499148-1┆0.002044-1芯片1脚10.4999-0.0000088.2226-8.2226-8.2230.333226-0.166436-0.3334┆0.002096-1芯片2脚-0.000004-0.000004-0.0000040.026426-0.026717-0.026420.333226-0.166436-0.3334┆0.001025-0.5芯片3脚0000.9999-0.503448-10.333291-0.166605-0.3334┆0.000999-0.5芯片6脚-0.000004-0.000004-0.0000040.026426-0.026417-0.02642-0.000042-0.000248-0.000004┆-0.000044-0.000004芯片7脚-1-0.50-8.16978.16978.17-0.3333110.1659390.3333┆-0.000044-0.000004故障类型正常正常正常R1开路R1开路R1开路R3开路R3开路R3开路┆R6开路R6开路网络期望输出量000000000001001001011011011┆11011018湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法表3-2RBF神经网络检验样本数据序号123456789101112RBF神经网络输入量V3输出1.50.7503891.50.7702851.50.7542491.50.7482941.50.74831.50.754115芯片1脚1.50.753118.22268.22250.499780.251281.50050.749648.74838.74831.49930.7545芯片2脚0-0.0003950.0264260.0263980.4997820.251279-3.6281-4.0041-8.7422-8.74260.7495910.377205芯片3脚0-0.0006111.50.7702860.499930.251294-3.6284-4.0048-3.6212-3.99710.7497730.37703芯片6脚0-0.0003950.0264260.026398-0.000086-0.0001911.50.7496353.03462.8382-0.000089-0.000089芯片7脚-1.4999-0.7561679-8.1697-8.1697-0.499955-0.251662-8.7566-8.7579-8.7422-8.7456-0.000089-0.000089故障类型正常正常R1开路R1开路R3开路R3开路R4开路R4开路R5开路R5开路R6开路R6开路网络期望输出000000001001011011100100101101110110我们首先利用表3-1中的数据对自适应RBF神经网络进行训练,网络结构设置方法如下:6个测试点对应6个输入,故障类型采用3位二进制编码,故输出节点数为3,隐含层节点数按估算公式(3-3)计算。nhninonp2(3-3)其中,nh、ni、no分别为隐含层、输入层、输出层的节点数,np为学习样本个数。根据上述公式求得隐含层节点数为15个,于是得到网络结构为6-15-3。在给定的训练精度相同的条件下,我们将自适应RBF神经网络的训练结果与基本RBF神经网络进行对比,二者的训练时间如表3所示,收敛曲线分别如图3-2(a)和图3-2(b)所示。从表3-3和图3-2可以看出,自适应RBF神经网络的平均训练时间比基本RBF神经网络短,其收敛速度和性能得到了提高。表3-3RBF神经网络的训练时间(ms)神经网络自适应RBF网络基本RBF网络训练精度10-310-3训练次数1010平均训练时间38086219湖南理工学院硕士学位论文0.1自适应RBF神经网络收敛曲线0.090.080.07总体误差第3章0.10.090.080.070.060.050.040.030.020.01一种RBF神经网络改进算法基本RBF神经网络收敛曲线总体误差0.060.050.040.030.020.0100100200300迭代次数40050060000200400600800迭代次数100012001400(a)图3-2(b)RBF神经网络的收敛曲线当自适应RBF神经网络训练结束之后,我们再利用表3-2中的检验样本数据对网络的泛化性能进行检验,让网络对新的电路故障数据进行诊断,诊断结果如表3-4所示。表3-4自适应RBF神经网络的检验结果序号123456789101112RBF神经网络期望输出000000111111000011000011001111001100RBF神经网络实际输出0.00860.00250.00390.01450.00340.02250.00770.00800.95720.00160.008270.98330.00110.99210.97600.00280.98710.97800.96230.00320.01200.95530.00610.00520.97540.00320.99200.98210.00730.98820.95340.99210.00330.96280.98300.0057诊断结果正常正常R1开路R1开路R3开路R3开路R4开路R4开路R5开路R5开路R6开路R6开路表3-4的诊断结果告诉我们,自适应RBF神经网络的实际输出与期望输出是完全一致的,也就是说其诊断结果与实际故障类型是完全吻合的。可见,利用自适应RBF神经网络能够实现对模拟电路故障的准确、可靠的诊断。
20湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法3.2遗传自适应RBF神经网络学习算法
3.2.1
算法框架
考虑到网络的收敛速度与泛化性,结合遗传算法与自适应RBF神经网络优化算法,提出一种遗传自适应RBF神经网络优化算法。用遗传算法优化RBF的网络参数值后,将优化后的参数值作为RBF神经网络的参数初始值,以加快网络的收敛速度;在网络训练过程中自适应调整学习率与动量因子以提高网络的泛化能力。算法流程图如图3-3所示:
图3-3遗传自适应RBF神经网络优化算法流程图21湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法算法具体描述如下:
(1)基于参数的混合编码初始化种群;
(2)计算种群中每个个体的适应度值,保存适应度值最优的N个个体;(3)判断当前种群是否满足最优条件或达到设定的迭代上限,若是则转(4),反之则进行遗传操作并转(2);
(4)将3中得到的三个网络参数值作为RBF神经网络训练算法中的网络参数初始值;
(5)用梯度下降算法修正当前网络参数;
(6)根据网络中学习误差大小,依据学习率与动量因子的自适应调整公式,调整网络的学习率与动量因子;
(7)当达到迭代上限或误差足够小时,算法结束,反之转(5)3.2.2
实验结果及分析
实验数据集采用UCI中的三个经典数据集,各数据集的基本信息如表3-5所示。
表3-5各数据集基本信息序号123
数据集IrisGlassWine
样本数150214178
特征数4913
类别数363
随机从上述三个经处理后的数据集的每一类中各取20条记录合成训练数据集,再各取10条记录作为测试数据集。其中每条数据的第一列作为输出数据集,其余列为输入数据集。即Iris数据集的训练集规模为60,测试集规模为30,输入层单元数为4,输出层单元数为1;Glass数据集的训练集规模为120,测试集规模为60,输入层单元数为9,输出层单元数为1;Wine数据集的训练集规模为60,测试集规模为30,输入层单元数为13,输出层单元数为1,隐层节点数的选取从1到10变化。
在梯度下降算法中学习率初始化为0.75和动量因子均初始化为0.05,当训练迭代次数达到10000算法结束。而用GA算法训练神经网络时,进化结束代数设为10000代,种群规模Popsize=50,初始化种群,令浮点数编码基因位的取值范围在[-1,6]之间,其中权值的取值范围为[-1,1],中心值c的取值范围为[0,6],宽度d的取值范围为[0,5]。适应度为训练集每个个体的实际输出与其对应的期望输出的误差之和的平均值。适应度计算公式如下所示:
22湖南理工学院硕士学位论文DateSize
第3章一种RBF神经网络改进算法Fitness
E
j1
j
DateSize(3-4)
1NS
Ej(yjikOjik)2
2i1k1
其中,Ej为误差函数,DateSize为选取的数据集数,j1,2,,DataSize。
(3-5)
为了更好的保证算法的泛化性,重复随机选取训练集和测试集进行6次实验,最终结果取这6次实验的平均值。图3-4到3-6给出了第3次实验下,梯度下降方法、遗传自适应算法训练出的RBF网络对Iris数据集分类精度的比较。
图3-4Iris误差曲线图3-5Glass误差曲线23湖南理工学院硕士学位论文第3章一种RBF神经网络改进算法图3-6Wine误差曲线从图3-4图3-6中我们可以看出cnn2即遗传自适应RBF神经网络算法的误差和网络收敛的速度明显要比cnn1即梯度下降算法要好,这也说明遗传自适应RBF神经网络的性能更优。
表4中给出了在训练集和测试集为3:1的情况下,经过6次实验各算法的平均识别率和误差表。
表4各算法识别率与误差表(%)数据集IrisGlassWine
梯度下降算法识别率91.63781.42196.834
误差0.7281.7150.852
遗传算法识别率90.33379.45997.347
误差1.4321.5731.034
遗传自适应算法识别率98.45883.25498.458
误差0.5121.2760.531
实验结果表明遗传自适应算法比遗传算法和梯度下降算法的识别率更高而误差更小。
3.3小结
针对RBF神经网络梯度下降学习算法随着隐层节点的增加而训练速度会明显减慢,初始值容易影响网络收敛效果的问题,本文提出了一种遗传自适应RBF神经网络优化算法。实验中,梯度下降算法使得遗传算法的局部寻优能力得到增强,
通过遗传算法来优化网络参数值,并将最终得到的网络参数最优值作为RBF神经网络训练的参数初始值,克服了初始参数值选择不合理造成的网络收敛性能不佳的现象,进一步优化了遗传算法的训练结果。并在此基础上引入了自适应调整的学习率和动量因子使得算法更快的朝着误差更小的方向收敛。最终分类正确率和误差的实验数据证明了新方法提高了网络的泛化能力。
24湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法第4章基于最大相关最小冗余的RBF神经网络降维方法
由于传统的建模方法在对目标进行建模时,一旦特征维数和目标维数过大建模难度和成本也会急剧上升造成维数灾难。为了解决维数灾难问题,减少计算成本,需要对高维数据进行降维处理。针对问题无解析模型这一特点,需对数据的内在关系进行分析,在本章中我们首先将将介绍两种基于Pareto优劣性预测的处理高维多目标问题的隐式降维方法,以及为提高Pareto预测精度和速度,基于数据驱动分析特征关系的两种改进显式降维方法。采用最大信息系数对特征空间和目标空间中的数据进行了相关分析,并结合最大相关最小冗余方法对高维特征进行特征选择,用RBF神经网络来评价所选特征子集的优劣性,最终得到一个最优的特征子集,实现高维空间降维。
4.1最大信息系数和最大相关最小冗余
最大相关最小冗余[79]是Peng等在2005年提出的一种过滤型特征选择算法,它的核心思想是选出一个与目标的相关性最大而内部冗余性最小的特征子集。
Def4.1(最大相关最小冗余):记X(X1,X2,,XD)RnD为决策空间中的D个样本集,其中每个样本为一个n维的决策向量,
Xi(x1,,xn),i1,2,,D,特征权重记做W(1,,n),i表示第i个决策分
量的特征权重,假设所有的权重都为负值且权重越大表示对应的决策分量越重要,对于一个决策子向量V(xi,,xk),VX,则决策子向量V的重要程度可定义为:
xiV
i
(4-1)
记cor:xxR为计算特征相关度的函数,cor(Fi,Fj)0(ij)为第i个特征与第j个特征间的相关度。则子集V的冗余度可表示为:
xiVxjVI(x,x)ij(4-2)
要得到一个没有冗余维的决策向量就要使得式(4-1)尽量大以及式(4-2)尽量小,其中特征权重又能转化为决策向量对目标向量的依赖程度的计算,即决策分量与目标分量的互信息之和,故这一特性可表述为:
25湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法maxixiV1VxiVI(x,y)ijmin 1V2(4-3)
ijxiVxjVI(x,x)
I(xj,xi)xiV
将(4-3)中的两个公式写成增量搜索的优化问题:
1
maxI(xj,yj)xjXVV
(4-4)
由于现实生活中很多的多目标问题都是高维且无解析模型的,对于这些问题,需要更有效的能计算出数据间相似性的方法,因此在这里我们还需引入一个计算决策分量对目标分量之间相似关系的最大信息相关系数MICij。最大信息相关系数[80](MaximalInformationCoefficient,MIC)是2011年D.Reshef等针对传统基于相关系数的测度变量间相似性方法对变量间的非线性关系不敏感的问题,在引入变量互信息(MutualInformation,MI)的基础上提出的能测量出变量间的各种关联大小的相似性测度方法(这种关联并不局限于线性关系、指数关系或周期关系)。
为了解决互信息中联合概率难以计算的问题,文中提出了将两个变量投影在二维坐标空间中,并将二维投影空间划分成合适大小的p行q列个网格,通过计算落在各网格中的投影点的个数与总投影个数的比值来计算联合概率。在求出每个网格中的互信息大小后,得到一个互信息矩阵M,(M(i,j)是第i行j列个网格的互信息,)取M中的最大值并归一化,这个值即为两个变量的最大信息相关系数MIC。其中,pqB,BN,N为样本个数(是关于p、q大小的超参数,取值在[0,1],超参数数的取值能影响最大信息相关系数的有效性,通过设置合理的能得到可靠性最高的超参数,在文[80]中,D.Reshef等通过实验对比将其设为了0.6)。在这个范围内,p、q可有多种取值,每种情况都有一个最大信息相关系数,其中最大信息相关系数最大的p、q取值为最合理取值,p、
q的合理取值可以通过自适应算法得到。
对于一些无解析模型的多目标优化问题,通过引入决策向量与目标向量的最大信息相关系数,能够有效的度量各目标分量与各决策分量的依赖性大小。关于线性相关系数和最大信息相关系数的定义如下:
设有一个多目标问题MOP,其n决策向量维x(x1,x2,,xn),m维目标向量y(y1,,ym),xi、xk为任一决策分量,yj为任一目标分量,MOP中样本个数为N,则线性相关系数与最大信息相关系数micij的数学定义如下:
I(xi,yj)a1,,pmic(x,y)max,,pqB,BNijijlog(min(a,b))b1,,q26abab(4-5)
湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法其中,式(4-1)中的a、b表示xi和yj的二维投影空间中的第a行b列个网格,
I(xi,yj)表示第a行b列个网格中的投影点的互信息。将最大信息相关系数作为冗余维的判别标准。它的取值都在[0,1]内,如micij0那么表示xi与yj无关,则称xi是关于yj的冗余维,若micijmickj则表示xi与xk关于yj等价,xi与xk互为等价维。4.1.1
基于决策分量与目标分量二维投影的网格划分
由于网格的划分对选取对最大信息系数值的准确性有着很大的影响,为了得到最合理的网格划分结果,我们采用动态网格划分的算法进行网格划分方式的选取。首先网格行列的初始值都为1,根据(4-5)中的网格数量的约束条件pqN增加网格,其具体算法如下:
Step1:将(xi,yj)投影到二维坐标上,按照投影点的分布。网格的行列数初始值分别为p1,q1,最大信息系数micij(xi,yj)0(i1,,n;j1,,m;
p1,,N1;q1,,N1)
abab
Step2:判断当前pqN是否成立若成立转Step3,若不成立MI(p,q)0Step3:计算当前p、q下每个网格的互信息M(k1,k2),得到互信息矩阵M
k11,,p;k21,,q,令MI(p,q)max(M);
Step4:micij(xi,yj)max(MI(p,q))/log(min(p,q))。
根据以上步骤我们可以构造如下最大信息相关系数矩阵MIC。
mic11 mic12 mic1m
mic mic mic
121mMIC11 mic mic micn2nmn1式中表rij示第i个决策分量xi与第j个目标分量yj之间的线性相关系数,micij第
i个决策分量xi与第j个目标分量yj之间最大信息相关系数。rij和micij的性质如
下:
(1)micij[0,1];
(2)若micij0表示决策分量xi目标分量yj间不存在依赖关系,即xi与yj是相互独立的;
(3)若micij0表示决策分量xi与目标分量yj之间存在依赖关系(这种相关线性和非线性),micij的取值大小代表xi与yj的依赖性大小,值越大,依赖性越大,值越小依赖性越小。
(4)当micijmickj时,表示xi和xk与目标分量yj有同等的依赖性。
27湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法4.1.2最大信息系数与最大相关最小冗余特征选择
由于MIC在计算变量的相关性上有着较强的普适性和公平性,将MIC用于
最大相关最小冗余方法中来计算变量之间的相关性能更有效地进行特征选择。特征选择的具体步骤如下:
Step1:初始化两个集合,Fx,S,F为待选的决策分量组成的集合称为待选特征集,初始化时,将一整个决策向量x赋值给F,S为特征子集,初始化为空集;
Step2:计算F中每个特征分量与目标分量yj最大信息系数MIC(xi,yj),并选出所有信息系数中的最大值maxMIC(xi,yj),对应的特征分量为xi,
FFxi,SSxi;
Step3:判断当前集合S的优劣,若当前集合S最优则转Step6,否则转Step4;
Step4:从F选取一个特征xj,使得(4-4)成立,FFxj,SSxj;Step5:若F,则转Step3;Step6:输出特征子集S。
4.2最大相关最小冗余RBF神经网络降维算法
4.2.1
最大相关最小冗余RBF神经网络降维算法构造
在4.1.2中,我们需要采取一些准则判断每次循环选出的特征子集能否在减小运算成本且快速的情况下得到一个满意的分类效果,而RBF神经网络在解决分类问题上具有良好表现,因此我们将第三章中的到的自适应RBF神经网络用于特征子集的性能验证,得到一个最大相关最小冗余RBF神经网络算法。对于一个n维特征m维目标的高维无解析模型问题,设x(x1,,xi,,xn)表示特诊向量,y(y1,,yj,,ym)表示目标向量,样本大小为N,xi为任一特征分量,将特征向量x存在集合X中,S用来存储选取出来满足条件yj为任一目标分量,
的特征分量,则算法具体步骤如下:
Step1:初始化一个nm的矩阵M用来存储各个特征与各个目标的相似关系系数,一个nn的矩阵I用来存储各个特征之间的相似关系;
Step2:计算所有MIC(xi,yj)并存入M,MIC(xi,xk)存入I。初始化Xx,
S;
Step3:For j1:mStep4:For i1:n-1
Step5:从M中选出maxMIC(xi,yj)对应的xi,XX-xi,SiSxi;Step6:XXxi1,Si1Sixk,从F选取一个特征xk,使得(4-4)成立,
28湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法转Step7;
Step7:若X,则转Step6,否则转Step9;
Step8:将特征子集S按每个子集的最大相关最小冗余值的降序排列的到一个特征子集的集合F,共有n个特征子集;
Step9:选取F中的一个特征子集Si作为RBF神经网络的输入,判断使用当前特征子集Si下的分类精度是否理想,若理性则转Step10,若不理想则在F中重新选取。
Step10:输出特征子集S。4.2.2
仿真实验结果及分析
为了验证本章提出的最大相关最小冗余RBF神经网络特征选择算法(mm-RBF)的性能,我们将采用采用几个UCI常用数据集,进行验证特征子集的分类精度。用mm-RBF算法得到的特征子集进行数据集分类和直接用完整的特征进行数据集分类进行对比实验,观察分类的精度与算法耗时。实验数据如表4-1所示。
表4-1UCI分类数据集序号12345
数据集wineoptdigitslibrasionospheredermatology
样本数1785620360351358
特征数1364903434
类别数3101526
按照公式(4-5)计算数据集的各个特征与类别的最大信息系数,这里我们通过特征-类别最大信息系数图来观察,如图4-4(a)-(e)。
(a)Wine特征类别最大信息系数29湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法(b)Ionosphere特征类别最大信息系数(c)Dermatoloy特征类别最大信息系数(d)optdigits特征类别最大信息系数30湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法(e)libras特征类别最大信息系数图4-4各数据集特征类别最大信息系数从4-4图中我们可以看出,Ionosphere数据集中第2维特征与类别的最大相关系数为0,即这一维特征与分类无关,可以事先剔除,optdigits数据集中也有8维特征类别相关系数为0的特征,分别为第1、9、17、25、32、33、40、57维,这8维特征也可以事先剔除。
对每个数据集重复实验10次,最终的特征选择数量与对应识别精度如图4-5(a)-(e)所示:
(a)Wine特征与识别精度31湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法(b)Ionosphere特征与识别精度(c)Dermatology特征与识别精度(d)optdigits特征与识别精度32湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法(e)libras特征与识别精度图4-5各数据集特征数量与识别精度Wine数据集原始特征空间为13维,由特征最大信息系数图初步分析,第1、6、7、10、11、12、13维与特征的相关系数较大,其对分类的影响也较大。由图4-5(a)可以看出在特征数量为3时wine数据集已经可以达到一个较好的分类精度,此选出的特征是第10、11、13维特征,一直到特征数量为6,分类精度不变;当特征数量为7时识别精度已经稳定不变,此时的特征是1、2、4、7、10、11、12、13,因此结合最大信息系数表我们得出,第10维到第13维的特征分量对wine数据集的分类起着决定性的作用。
Ionosphere原始特征空间为34维,由图4-5(b)可看出当特征维数为21和24时,识别精度最高,21维时选出的特征为第3、4、5、6、7、8、13、14、16、18、21、22、24、25、26、28、29、31、32、33、34维,24维时,在第21维的基础上加入了第9、12、20维。且21维时识别精度为0.9231仅比24维时的识别精度0.9259小了0.0028。
Dermatology原始特征空间为34维,由图4-5(c)可以看出当选出13维特征进行分类时,识别精度已经可以达到0.95以上,特征空间为22和26维时分类精度可以达到0.99以上,而用原始特征空间的34维特征进行分类时,识别精度反而有所下降,最终得出最好的最大相关最小冗余特征集合由第5、6、7、8、9、10、12、14、15、16、20、21、22、24、25、26、27、28、29、30、31、33维构成。
Optdigits原始特征空间为64维,由图4-5(d)可看出当选出14维特征时,识别精度已经可以达到0.99以上,此时的识别精度为0.9909,,选出的特征为第11、14、19、22、27、29、31、34、35、37、39、43、44、55、62当特征维数为26维时识别精度最高为0.9977,选出的特征为第10、11、14、19
33湖南理工学院硕士学位论文第4章基于最大相关最小冗余的RBF神经网络降维方法、20、21、22、23、27、28、29、31、34、35、37、39、42、43、44、45、47、54、55、62、63。
libras原始特征空间为91维,由图4-5(e)可以看出,经过反复实验无论特征数量为多少,预测精度总是保持在0.8667不变,而图4-4中特征与类别的最大信息系数又各不相等,这说明libras各个特征间的冗余程度都很高,此时只需选取其中特征与类别最大信息系数最高的几维特征即可。
4.3小结在面对无解析模型的问题,最大信息系数是一种有效的计算变量间的最大互信息的方法。在面对高维数据时最大相关和最小冗余能够在尽量获得特征与目标间的最大信息的情况下保证特征间无关系,得到一个纯净特征子集。为了解决高维无解析模型问题采用最大相关最小冗余法选择尽量小的有效特征子集,为了解决最大相关最小冗余方法互信息难计算的问题采用最大信息系数计算方法计算互信息,最后结合自适应RBF神经网络算法选取最合适的特征子集,实现了高维数据的有效降维。最后实验结果表明,结合最大信息的最大相关最小冗余特征选择方法能在获得同等甚至更优于用原始特征空间分类识别精度的基础上大大降低特征维数。
34湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用第5章RBF神经网络降维方法在高维多目标优化中的应用
为寻找解决高维多目标优化的维数灾难和成本巨大问题的方法,并进一步观察前文提出的最大相关最小冗余特征选择算法的应用效果,本章将基于最大冗余最小相关的RBF神经网络特征选择算法用于多目标进化算法中的决策空间降维并进行Pareto优劣性预测。
5.1Pareto优劣性预测方法介绍
5.1.1决策空间冗余维和等价维的定义
冗余维,顾名思义就是决策向量中冗余的决策分量。这个决策分量对目标分量不产生作用,或者该维能被其他任意几维线性表示,这样的维我们称之为冗余维。
Def5.1(冗余维):设有一组m维映射F(x)(f1(x),f2(x),,fm(x)),其中x为一个n维的决策向量,x(x1,x2,,xn),F(x)为一个映射函数向量。xi为
x(x1,x2,,xn)中任意一维决策分量,为x(x1,x2,,xn)中任意决策(xj,,xk)
子向量,(xj,,xk)x,fi(x)是F(x)中的一个映射函数子向量,为标量。如果有:
xia(xj,,xk)
(5-1)
其中a(a1,a2,,aq)为常数向量,q为决策子向量中的决策分量的总个数,
qn,则有
fi(x)fi(x'),x'(x1,,xi1)(xi1,,xn)(5-2)
Def5.2(等价维):设有一个映射yf(x),其中x为一个n维的决策向量,
x(x1,x2,,xn),y是这个决策向量对应的一个函数值,为标量。xi和xj为x(x1,x2,,xn)中的决策分量,保持其他决策分量值不变,若交换xi和xj的值,y值不变,则对x1(x1,x2,xi,,xj,,xn)和x2(x1,x2,xj,,xi,,xn),有
f(x1)f(x2)
称xi和xj为关于yf(x)的等价维。
(5-3)
Cor5.1(等价维传递性):若对yf(x),有xi和xj互为等价维,xj和xk互为等价维,则xi和xk互为等价维。
证明:若xi和xj等价,则根据定义:
35湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用f(x1,,xi,,xj,,xn)f(x1,,xj,,xi,,xn)
(5-4)
如果xj和xk为等价维,交换xj和xk的值,有:
f(x1,,xj,,xk,,xn)f(x1,,xk,,xj,,xn)
(5-5)
不失一般性,可设ijk,根据公式(5-4)和(5-5),有:
f(x1,,xi,,xj,,xk,xn)
f(x1,,xj,,xi,,xk,xn)f(x1,,xk,,xi,,xj,xn)f(x1,,xk,,xj,,xi,xn)
(5-6)
由(5-6)可以得出xi和xk互为等价维。根据等价维的传递性,若多个决策分量互为等价维,则将由其构成的子向量称等价子向量。5.1.2基于分类的Pareto支配性预测方法5.1.2.1最近邻分类方法
最近邻分类是一种基于非参数估计的模式识别方法,该方法是分类技术中最简单的方法之一。最近邻分类通过计算候选解间的相似性来将各自相似性最高候选解分做同一类。因此只需选取一个合适相似性度量方法即可。
最近邻的相似性度量方法有很多种,常用的基于距离的度量方法有欧氏距离、曼哈顿距离、切比雪夫距离等,最常用的距离测度是欧式距离。
x(x1,x2,,xn)和y(y1,y2,,ym)分别表示一个n维假设一个MOP问题,
的决策向量和一个m维的目标向量,S1,S2分别表示由N个决策向量构成的候选解集,xi(x1,,xn),xj(x1,,xn)则表示任意两个候选解,(xi,xj)表示
xi,xj间的支配关系,则基于欧式距离的最近邻分类Pareto支配性预测方法规则
iijj如下:
第一步:随机生成两个候选解集S1,S2;
第二步:在S1,S2中分别查找与xi,xj欧式距离最小的样本sk,sk'即
diminxisk,skS1,djminxjsk',sk'S2;
k1:Nk'1:N第三步:计算(sk,sk');第四步:令(xi,xj)(sk,sk')。
最后实验结果表明,基于最近邻分类的Pareto支配性预测方法在样本集较大的情况下能取得较为理想的分类效果,但考虑到成本问题,现实中的样本集规模
36湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用往往不大,为了在小样本集提高Pareto支配性的预测精度,需要深入挖掘样本中的关键信息,进行高维决策空间降维。
5.1.2.2基于投影边界特征点提取判别等价维的降维方法
文献[81]中发现,如果将一维决策分量与一维的目标分量进行二维投影,投影的边界点能有效反映投影点的分布特性,采用网络分析方法提取边界点并拟合重构。在相同目标分量的情况下,每个决策分量都有与之对应特征重构曲线,分别在各自的曲线上均匀选取一定数量的特征点,计算这些特征点的之间的差值。引入容错误差的阈值参数,如果两条特征曲线上所取的特征点的差值小于该容错误差,那么我们认为这两条曲线所代表的决策分量为等价分量。之后再通过Sammom降维实现高维决策空间到低维决策空间的降维。一个nm维的Mops,
x(x1,,xi,,xn)为n维的决策向量;y(y1,,yj,,ym)为m维的目标向量。
样本数为N,S为训练集,Z为目标向量集。则对任意两个解u和v,Pareto优劣性预测步骤如下:
Step1:将x(x1,,xi,,xn)中的各个决策分量分别与目标分量yj投影至二维坐标平面上;(j1,2,m)
Step2:用网格法获取每个坐标平面上的投影边界特征点,并进行重构;
Step3:在重构的曲线上均匀采集一些特征点形成n个特征点集合,取任意决策分量xi将之决策向量中与xk对应的特征点集Si、Sk,判断是否满足
S
iSkt
1
,其中通常取0.3,若满足,则xi、xk互为等价维,
maxSiSk将每一个目标分量对应的决策向量都分别进行等价维划分。
Step4:Sammom映射方法将划分等价维后的决策向量进行降维映射,互相等价的决策分量都映射到一维上。对于第j个目标分量,将n维的样本集Fj映射成qj维的样本集Fj',qj的值不超过第j个目标分量对应的等价子向量个数。样本u、v在Fj'上对应的样本映射为u'、v'。
Step5:在映射样本集Fj'找与u'、v'对应的最近邻,计算u'、v'对应的目标值,
u、v之间的支配关系可由映射样本集上的目标值来确定,u'、v'的最近邻对应样本即为u、v的最近邻样本,其最近邻的支配关系可通过u、v之间的支配关系进行预测。
实验证明,投影边界特征点判别等价维的方法能取得一个较为理想的效果。
37湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用在该算法中,等价分量的判别不需要构建对决策分量与目标分量构建解析分析的模型,因此适用于无解析模型的多目标优化问题。
5.2应用RBF神经网络降维方法预测Pareto优劣性
5.2.1
最大相关最小冗余RBF神经网络预测Pareto优劣性
由于多目标优化算法中存在相互无关但交换位置目标值不发生改变的等价维,因此在把最大相关最小冗余RBF神经网络应用的Pareto优劣性预测时,我们需要根据5.1节中提到的投影特征点判别等价维方法重新定义特征与特征之间的相互关系。具体定义如下:
设有一个由n维决策空间,m维目标空间构成的MOP问题,
x(x1,,xi,,xn)为决策向量,y(y1,,yj,,ym)为目标向量,N为样本个
数,maxMIC(xi,yj)的定义同第4章,I(xi,xk)定义如下:
xi与yj的投影特征点重构的曲线提取的投影特征点集ui,xk与的yj投影特
征点重构的曲线提取的投影特征点集uk,如果
vmaxuiukuiuk(5-7)
一般取0.3,则代表xi与xk互为等价维,则I(xi,xk)1。
综上,用最大相关最小冗余RBF神经网络预测Pareto优劣性算法的具体步骤如下:
Step1:初始化一个nm的矩阵M用来存储各个特征与各个目标的相似关系系数,一个nn的矩阵I用来存储各个特征之间的相似关系;
Step2:计算所有MIC(xi,yj)并存入M,MIC(xi,xk)存入I。初始化Xx,
S;
Step3:找出I中所有元素为0(近似于0)的对应特征,计算按公式(5-1)
**计算两特征xi*和xk的特征点距离插值,如果满足(5-1),那么I(xi*,xk)=1;
Step4:For i1:n-1
Step5:从M中选出maxMIC(xi,yj)对应的xi,XX-xi,SiSxi;Step6:从F选取一个决策分量xk,使得(5-4)成立,XXxi1,
Si1Sixk,转Step7;
Step7:若X,则转Step6,否则转Step9;
38湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用Step8:将特征子集S按每个子集的最大相关最小冗余值的降序排列的到一个决策子向量的集合F,每一个目标共有对应n个决策子向量;
EndForEndFor
Step9:选取第j维目标分量对应的决策子向量集合F中的一个决策子向量
Si作为RBF神经网络的输入,输出为第j维目标分量的值。计算当前特征子集Si下的实际输出与目标输出的误差,若误差理想,则转Step10,若不理想则在F中重新选取。
Step10:输出决策子向量S。
Step11:针对每一维目标分量,按照Step4~Step10构造决策子向量集,找出最优决策子向量,最终得到一个由m个决策子向量构成的决策子向量集合S*。
Step12:采用最近邻预测框架,用S*中的决策子向量对应的各个目标的RBF
(v)代替样本u、F(v),神经网络实际输出(u)、按S*与(u)、v的目标值F(u)、(v)找各自的最近邻u'、v'。
Step13:计算u、v的Pareto优劣性(u,v),(u',v')(u,v)。5.2.2
实验结果及分析
为了验证解析函数未知的情况下基于最大信息相关系数的最大相关最小冗余RBF神经网络算法的Pareto优劣性预测准确度,采用经国际认证的几个用于多目标优化问题测试的函数ZDT1、ZDT6、DTLZ1、DTLZ2、DTLZ4五个经典的多目标优化函数进行模拟黑箱实验的Matlab仿真。并将仿真得到的决策子向量S*结合最近邻算法预测Pareto优劣性,采用基于欧式距离的测度方法(SNNP)、基于等价分量交叉的测度方法(ESNNC)与本文的最大相关最小冗余RBF神经网络特征选择算法MMRBF进行对比实验,以验证MMRBF的优劣性。表5-1中给出了所用多目标测试函数的定义,其中n为自变量维数,m为目因变量维数。
39湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用表5-1测试多目标函数定义问题函数
n、m
n10m2
定义域目标函数
ZDT1
[0,1]
minf1(x)x1minf2(x)g(1(f1/g))g(x)19xi/(n1)
i2nZDT6n10m2
[0,1]
minf1(x)1-exp(4x1)sin6(6πx1)minf2(x)g(1(f1/g)2)g(x)19(xi/(n1))0.25i2nDTLZ1n10m3
[0,1]
1
x1x2(1g(x))21
minf2(x)x1(1x2)(1g(x))
21
minf3(x)(1x1)(1g(x))
2minf1(x)
g(x)100(10(xi0.5)2cos(20(xi0.5)))
i1nDTLZ2n10m3
[0,1]
x1)cos(x2)(1g(x))22minf2(x)cos(x1)sin(x2)(1g(x))
22minf3(x)sin(x1)(1g(x))
2minf1(x)cos(g(x)(xi0.5)2i3nDTLZ4n10m3
[0,1]
x1)cos(x2)(1g(x))22minf2(x)cos(x1)sin(x2)(1g(x))
22minf3(x)sin(x1)(1g(x))
2
minf1(x)cos(g(x)(xi0.5)2i3n对表5-1中的5个测试函数分别进行实验。每个测试函数进行100次重复实验,每次随机产生300个样本集,其中200个样本作为训练集,100个样本作为测试集,统计100次实验的特征选择结果以及用最终选取的特征进行Pareto预测
40湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用结果,并分别计算100次实验中Pareto预测的三类预测结果(支配、被支配、不可比)的平均正确率和总正确率,具体结果如表5-2、5-3所示:
表5-2各多目标问题选取的特征维数目标函数各目标分量特征维数具体特征
ZDT1ZDT6DTLZ1DTLZ2DTLZ4
f133222
f233333
f3(x1,x2,x3)(x1,x2,x3)(x1,x2,x3)(x1,x2,x3)
222
(x1,x3)(x1,x2,x3)(x1,x3)(x1,x10)(x1,x2,x10)(x1,x10)(x1,x4)(x1,x2,x4)(x1,x4)
表5-3各算法Pareto预测正确率(%)问题函数
n、m
n10
m2
算法预测正确率
total
ZDT1
SNNPESNNCMMRBF
68.2786.7980.3660.3768.3977.5194.5789.6497.5391.9193.5695.6859.5378.3779.31
26.3538.6281.3258.9270.1276.0423.6531.0170.5920.3922.0173.2419.0444.2580.43
35.2335.3779.8353.2767.4374.6843.2829.8971.3834.6621.1876.3322.8747.0469.53
~
73.3190.3882.7565.2460.8878.3990.8492.5894.5792.4592.3390.6860.3179.9888.37
ZDT6
n10m2
SNNPESNNCMMRBF
DTLZ1
n10m3
SNNPESNNCMMRBF
DTLZ2
n10m3
SNNPESNNCMMRBF
DTLZ4
n10m3
SNNPESNNCMMRBF
41湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用从表中的实验结果可看出基于最大信息系数的最大相关最小冗余的特征选择算法,能选出的最小特征子集提高算法效率的同时维持一个较好Pareto预测精度。
5.3降维和预测与MOEAS的集成
5.3.1
降维和预测与MOEAS的集成框架
将基于最大相关最小冗余的RBF神经网络的Pareto优劣性预测方法嵌入多目标进化算法中,并与NSGA-Ⅱ进行对比实验。
在多目标进化算法中,需要对候选解间的Pareto优劣性进行评估,本文用基于最大相关最小冗余的RBF神经网络降维方法来进行Pareto优劣性的预测,将引入了RBF降维预测的算法称之为mR-PMOEAs,算法具体描述如下:
符号说明:种群规模:N,交叉概率:Pc,变异概率:Pm;进化代数:
Gen,最大进化代数:G。
Step1:初始化种群,规模为N设置Pc、Pm,Gen1;
Step2:采用基于最大相关最小冗余的RBF降维方法结合最近邻算法预测个体间的Pareto优劣性;
Step3:根据预测结果对父种群进行非支配排序,执行遗传操作,产生子种群。令:GenGen1;
Step4:如果Gen>1,合并父子种群;
Step5:对合并后种群进行快速非支配排序,并计算个体间的拥挤度;Step6:计算拥挤度,选择拥挤度大的个体,形成新的父代种群;Step7:GenG是否成立,若否,则跳转到Step3,若是,停止迭代。5.3.2
实验结果与分析
降维预测和MOEAS的集成与NSGA-II的对比实验选用ZDT1、ZDT3、
ZDT6、DTLZ1、DTLZ2、DTLZ4六个测试函数。实验的具体设置见表5-4。
表5-4多目标进化算法实验参数设置函数样本数N200200200200200200
n
101010101010
m
222333
交叉概率Pc
0.850.850.850.850.850.85
42变异概率Pm
0.20.20.20.20.20.2
最大进化代数G
200200200200200200
ZDT1ZDT3ZDT6DTLZ1DTLZ2DTLZ4
湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用实验的Pareto前沿如图5-1(a)-(f)如下所示,其中红色空心圆代表采用NSGA-II算法的仿真结果,蓝色表示采用MMRBF-MOEA算法的仿真结果:
(a)ZDT1的Pareto前沿(b)ZDT3的Pareto前沿(c)ZDT6的Pareto前沿43湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用(d)DTLZ1的Pareto前沿(e)DTLZ2的Pareto前沿(f)DTLZ4的Pareto前沿图5-1各多目标优化问题Pareto前沿仿真对比图44湖南理工学院硕士学位论文第5章RBF神经网络降维方法在高维多目标优化中的应用从图5-1(a)到图5-1(f)可以看出MMRBF-MOEA算法得到的Pareto前沿十分接近NSGA-II的Pareto前沿,且实验过程中MMRBF-MOEA的计算量大幅度减少,运行时间较快。但图中同时也可以看出,MMRBF-MOEA所得的Pareto前沿的分布较为稀疏且无法很好涵盖整个Pareto面,尤其在ZDT3上能明显的看出Pareto前沿有缺失。
5.4小结
本章在RBF神经网络特征选择降维的基础上,按照选取出来的特征子集及RBF神经网络的实际输出结合最近邻算法,来实现Pareto优劣性的预测。并将预测结果嵌入MOEAs算法实现了Pareto最优面的逼近,实验结果表明本文提出的方法能在大幅度减少目标评估的基础上,较快地引导算法逼近Pareto最优面,大大降低了计算成本。
45湖南理工学院硕士学位论文第6章结语第6章结
6.1结论
语
研究高维数据降维对减少计算成本、避免维数灾难有着重大意义。针对高维多目标问题,现有的基于代理模型的多目标问题求解方法在高维决策空间中面临建模难成本高的问题,而基于冗余维和等价维解析的高维决策空间降维方法在无解析模型的问题中并不适用。为解决无解析模型的高维多目标问题中决策空间维数过高引起的建模难、成本高等问题,本文依托湖南省自然科学基金项目“有监督机器学习中的高维数据预处理方法研究”,从挖掘数据间的相似关系角度出发,研究了基于相似性测度的RBF神经网络降维方法及其在高维数据预处理中的应用。本文的主要研究内容如下:
(1)为解决传统的基于梯度下降的RBF神经网络算法存在的收敛速度慢、会陷入局部极小的问题,通过自适应调节学习率和动量因子的值来加快网络的收敛速度;利用遗传算法优化初始参数值,得到一个全局较优的初始参数值,再采用自适应梯度下降算法调整参数值。这样,在避免网络陷入局部极小的同时,也加快收敛速度。
(2)为解决高维多目标问题由于无解析模型而导致的变量间相似性难以测度的问题,引入最大信息系数计算变量间的互信息,在此基础上用最大相关最小冗余方法结合RBF神经网络评价特征子集,得到一个与目标相关性最大、相互冗余度最小的纯净低维特征子集,实现了高维特征(决策)空间的降维。通过Matlab分类实验,实验结果证明了该降维算法的有效性。
(3)将降维算法结合最近邻分类模拟黑箱问题来预测Pareto优劣性,实验表明在大量减少成本的情况下,最大相关最小冗余RBF神经网络算法能保证有效的预测准确度。最后将最大相关最小冗余的RBF神经网络预测Pareto优劣性算法与MOEAs结合,通过与NSGA-II的优化结果对比,实验证明预测算法能够引导MOEAs逐渐逼近Pareto最优面。
综上,本文的创新之处在于:第一,针对RBF梯度下降神经网络收敛速度慢的问题,对两个超参数学习率和动量因子做了自适应调整,提出了一种遗传自适应RBF神经网络算法;第二,针对高维数据存在的特征维数过多、容易引起维数爆炸的问题,提出了一种最大信息相关系数与最大冗余最小相关相结合的特征选择方法,并结合遗传自适应RBF神经网络算法在高维特征空间中选取出一个纯净且识别效果好的低维特征子集,从而实现了对高维特征空间的降维;第三,针对昂贵多目标问题中决策分量间无明显相关关系但存在等价关系的问题重新
46湖南理工学院硕士学位论文第6章结语定义了特征选择算法的冗余关系,采用互信息和特征投影重构后的函数值差值作为特征选择算法中特征间冗余关系识别标准,采用重新定义的最大相关最小冗余标准进行了多目标问题的特征选择。最后将本文提出的最大相关最小冗余遗传自适应RBF神经网络算法用于多目标优化中的决策空间降维预处理,并进行Pareto优劣性预测,有效地降低了昂贵多目标优化的维数灾难和计算成本。
6.2展望
本文研究的方法虽然在一定程度上能实现高维数据降维并得到一个较好的问题求解结果。但是仍然存在以下几个问题需进一步研究:
(1)RBF神经网络算法的隐含层节点个数需提前设定,无法自适应调整。(2)最大相关最小冗余特征提取方法需要通过试探验证才能确定最优特征子集。
(3)决策空间中决策分量之间的潜在关系的挖掘方法还需进一步研究。(4)Pareto预测和MOEAs的集成方法仍需进一步研究。
47湖南理工学院硕士学位论文参考文献参考文献
[1]R.S.Rosenberg.Simulationofgeneticpopulationswithbiochemicalproperties.
PhDthesis,UniversityofMichigan,AnnHarbor,Michigan,1967.[2]JolliffeIT.Principalcomponentanalysis[M].Springerverlag,2002.[3]DudaRO,HartPE.Patternclassificationandsceneanalysis[J].1973.
[4]Kruskal,J.B,Wish,M,Uslaner,E.M.Multidimensionalscaling[M]//
MULTIDIMENSIONALSCALING.BOOKONDEMANDPOD,1978.[5]ScholkopfB,SmolaA.KernelPrincipalComponentAnalysis[C]//International
ConferenceonArtificialNeuralNetworks.Springer,Berlin,Heidelberg,1997.[6]SebastianMika,G.Ratsch,JasonWeston,etal.FisherDiscriminantAnalysiswith
Kernels[C]//NeuralNetworksforSignalProcessingIX,1999.Proceedingsofthe1999IEEESignalProcessingSocietyWorkshop.IEEE,1999.
[7]TenenbaumJ,De-SilvaV,LangfordJ.Aglobalgeometricframeworkfor
nonlineardimensionalityreduction.[J].Science,2000,290(5500):P.2319-2323.[8]Roweis,S.T.
Nonlinear
Dimensionality
Reduction
by
Locally
Linear
Embedding[J].Science,2000,290(5500):2323-2326.
[9]HintonG,RoweisS.StochasticNeighborEmbedding[J].Advancesinneural
informationprocessingsystems,2003,15(4):833--840.
[10]LaurensVDM,HintonG.VisualizingDatausingt-SNE[J].JournalofMachine
LearningResearch,2008,9(2605):2579-2605.
[11]TangJ,LiuJ,ZhangM,etal.VisualizingLarge-scaleandHigh-dimensional
Data[J].2016.
[12]DudaRO,HartPE,StorkDG.Paternclassification[M].JohnWiley&Sons,
2012
[13]LiF,MiaoD,PedryczW.Granularmulti-labelfeatureselectionbasedonmutual
information[J].PatternRecognition,2017,67:410-423.
[14]Robnik-SikonjaM,KononenkoI.TheoreticalandEmpiricalAnalysisofReliefF
andRReliefF[J].MachineLearning,2003,53(1/2):p.23-69.[15]NgAY.Featureselection,l1vs.L2regularization,androtational
NewYork,NY,USA,2004.NewYork,NY,USA:ACM,2004:78.
invariance[C].
Proceedingsofthetwenty-firstinternationalconferenceonMachinelearning,
48湖南理工学院硕士学位论文参考文献[16]HollandJH.AdaptationinNaturalandArtificialSystems:AnIntroductory
AnalysisWithApplicationstoBiology,Control,andArtificialIntelligence[J].Control&ArtificialIntelligenceUniversityofMichiganPress,1975,6(2):126-137.
[17]SchafferJD.MultipleObjectiveOptimizationwithVectorEvaluatedGenetic
Algorithm[J].Proc.1stInt.Conf.onGeneticAlgorithmandTheirApplications,1985,2(1):414-419.
[18]FonsecaCM,FlemingPJ.GeneticAlgorithmsforMultiobjectiveOptimization:
FormulationDiscussionandGeneralization[C].InternationalConferenceonGeneticAlgorithms.MorganKaufmannPublishersInc.1993:416-423.
[19]HornJ,NafpliotisN,GoldbergDE.ANichedParetoGeneticAlgorithmfor
MultiobjectiveOptimization[C]EvolutionaryComputation1994IEEEWorldCongressonComputationalIntelligence.ProceedingsoftheFirstIEEEConferenceon.IEEE,1994:82-87.
[20]SrinivasN,DebK.Multi-objectiveOptimizationusingNon-dominatedSorting
inGeneticAlgorithms[J].EvolutionaryComputation,1995,2(3):221-248.[21]ZitzlerE,ThieleL.Multiobjectiveevolutionaryalgorithms:Acomparativecase
studyandthestrengthParetoapproach[J].IEEETransactionsonEvolutionaryComputation,1999,3(4):257-271.
[22]KnowlesJD,CorneDW.Approximatingthenondominatedfrontusingthe
Paretoarchived149-172.
[23]CorneDW,KnowlesJD,OatesMJ.TheParetoenvelope-basedselection
algorithmformultiobjectiveoptimization[C].In:ProceedingsoftheInternationalConferenceonParallel2000:839-848.
[24]CorneDW,JerramNR,KnowlesJD,etal.PESA-II:Region-basedselectioninevolutionarymultiobjectiveoptimization[C].In:Proceedingsofthe3rdAnnual
ConferenceonGeneticandEvolutionaryComputation.SanFranciaco:MorganKaufmannPublishersInc.,2001:283-290.
[25]DebK,PratapA,AgarwalS,etal.Afastandelitistmultiobjectivegenetic
algorithm:NSGA-II[J].IEEETransactionsonEvolutionaryComputation,2002,6(2):182-197.
[26]VanVeldhuizenDA,LamontGB.Multi-objectiveoptimizationwithmessy
49evolutionstrategy[J].Evolutionarycomputation,2000,8(2):
ProblemSolvingfromNature.Berlin:Springer-Verlag,
湖南理工学院硕士学位论文参考文献geneticalgorithms[C].In:ProceedingsoftheACMSymposiumonAppliedComputing.NewYork:ACMPress,2000:470-476.
[27]EricksonM,MayerA,HornJ.Thenichedparetogeneticalgorithm2appliedto
thedesignofgroundwaterremediationsystems[C].In:ProceedingsoftheFirstInternationalConferenceonEvolutionaryMulti-CriterionOptimization.Berlin:Springer-Verlag,2001:681-695.
[28]CoelloCAC,PulidoGT.Amicro-geneticalgorithmformulti-objective
optimization[C].In:ProceedingsoftheGeneticandEvolutionaryComputationConference.SanFrancisco:MorganKaufmannPublishers,2001:126-140.[29]CoelloCAC,PulidoGT,LechugaMS.Handlingmultipleobjectiveswith
particleswarmoptimization[J].IEEETransactionsonEvolutionaryComputation,2004,8(3):256-279.
[30]GongM,JiaoL,DuH,etal.Multiobjectiveimmunealgorithmwith
nondominatedneighbor-basedselection[J].IEEETransactionsonEvolutionaryComputation,2008,16(2):225-255.
[31]ZhouA,ZhangQ,JinY,etal.Globalmultiobjectiveoptimizationviaestimation
ofdistributionalgorithmwithbiasedinitializationandcrossover[C].In:Proceedings
ofthe9thAnnualConferenceonGeneticandEvolutionary
Computation.NewYork:ACMPress,2007:617-623.
[32]ZhangQF,ZhouAM,JinY.RM-MEDA:Aregularitymodelbasedmulti-objectiveestimationofdistributionalgorithm[J].IEEETrans.onEvolutionaryComputation,2007,12(1):41-63.
[33]ZhangQ,LiH.MOEA/D:Amultiobjectiveevolutionaryalgorithmbasedon
decomposition[J].IEEETransactionsonevolutionarycomputation,2007,11(6):712-731.
[34]DebK,SaxenaDK.OnfindingPareto-optimalSolutionsthrough
DimensionalityReductionforCertainLarge-dimensionalMulti-objectiveOptimizationBroblems[C]KanGALReport.2005.[35]Brockhoff
D,
Zitzler
E.
Dimensionality
Reduction
inMultiobjective
Optimization:TheMinimumObjectiveSubsetProblem[C]In:InternationalConferenceoftheGermanOperationsResearchsociety.Berlin:DBLP,2007:423-429.
[36]CoelloCAC,ChakrabortyD.ObjectiveReductionusingaFeatureSelection
Technique[C]In:ConferenceonGeneticandEvolutionaryComputation.New
50湖南理工学院硕士学位论文参考文献York:ACM,2008:673-680.
[37]公茂果,焦李成,杨咚咚,等.进化多目标优化算法研究[J].软件学报,2009,
20(2):271-289.
[38]SaxenaDK,DuroJA,TiwariA,etal.ObjectiveReductioninMany-ObjectiveOptimization:
Linear
and
NonlinearAlgorithms[J].
IEEE
Transactions
on
EvolutionaryComputation,2013,17(1):77-99.
[39]SinghHK,IsaacsA,RayT.AParetoCornerSearchEvolutionaryAlgorithmand
DimensionalityReductioninMany-ObjectiveOptimizationProblems[J].IEEETransactionsonEvolutionaryComputation,2011,15(4):539-556.
[40]NainPKS,DebK.Amulti-objectivesearchandoptimizationprocedurewith
successiveapproximatemodels[R].KanpurGeneticAlgorithmsLaboratoryReportNumber2014012,IndianInstituteofTechnologyKanpur,2004.
[41]JinY,SendhoffB.Asystemsapproachtoevolutionarymulti-objectivestructural
optimizationandbeyond[J].IEEEComputationalIntelligenceMagazine,2009,4(3):62-76.
[42]LiuB,ZhangQ,GielenG,AGaussianprocesssurrogatemodelassisted
evolutionaryalgorithmformedinumscaleexpensiveoptimizationproblems,IEEETrans.OnEvolutionaryComputation,18(2),2014:180-192.
[43]SammonJ,Anonlinearmappingfordatastructureanalysis,IEEETrans.On
Computer,100(5),1969:401-409.
[44]YangD,JiaoL,GongM.HybridMultiobjectiveEstimationofDistribution
AlgorithmbyLocalLinearEmbeddingandAnImmuneInspiredAlgorithm[C].In:ProceedingsoftheIEEECongressonEvolutionaryComputation.Paris:IEEE,2009:463-470.
[45]张冬梅龚小胜戴光明.基于多重分形主曲线模型多目标演化算法研究[J].
计算机研究与发展,2011,48(9):1729-1739.
[46]朱建凯.基于流形学习的多目标分布估计算法研究[D].中国地质大学,
2011.
[47]WangH,JiaoJ,ShangR,HeS,andLiuF,Amemeticoptimizationstrategy
basedondimensionreductionindecisionspace,Evolutionarycomputation,23(1),2015:69-100.
[48]WangHandJinY,Efficientnonlinearcorrelationdetectionfordecomposed
searchinevolutionarymulti-objectiveoptimization,2017IEEECongressonEvolutionaryComputation(CEC),June2017.
51湖南理工学院硕士学位论文参考文献[49]DebK.Multi-objectiveOptimisationUsingEvolutionaryAlgorithms:An
Introduction[M]//Multi-objectiveEvolutionaryOptimisationforProductDesignandManufacturing.2011.
[50]ZouJ,LiQ,YangS,etal.Adynamicmultiobjectiveevolutionaryalgorithm
basedonadynamicevolutionaryenvironmentmodel[J].Swarm&EvolutionaryComputation,2018:S221065021730500X.
[51]ZhangW,YangD,YangW,etal.MultiobjectiveEvolutionaryAlgorithmbased
onFastEliteSamplingStrategyandDifference-basedLocalSearchforVRPTW[C]//2019IEEEInternationalConferenceonSystems,ManandCybernetics(SMC).IEEE,2019.
[52]ZhouY,XiangY,ChenZ,etal.AScalarProjectionandAngle-Based
EvolutionaryAlgorithmforMany-ObjectiveOptimizationProblems[J].IEEETransactionsonCybernetics,2018:1-12.
[53]FangW,ZhangL,YangS,etal.AMultiobjectiveEvolutionaryAlgorithmBased
onCoordinateTransformation[J].Cybernetics,IEEETransactionson,2019,49(7):2732-2743.
[54]WuM,LiK,KwongS,etal.LearningtoDecompose:AParadigmfor
Decomposition-BasedMultiobjectiveOptimization[J].IEEEtransactionsonevolutionarycomputation,2019,23(3):376-390.
[55]ShanSandWangG,Surveyofmodelingandoptimizationstrategiestosolve
high-dimensionaldesignproblemswithcomputationally-expensiveblack-boxfunctions,StructuralandMultidisciplinaryOptimization,41(2),2010:219-241.[56]AlanDiaz-Manriquezetal,Areviewofsurrogatedassistedmultiobjective
evolutionaryalgorithms,ComputationalIntelligenceandNeuroscienence,2016(4):1-14.
[57]GuoG,LiW,YangB,etal.PredictingParetoDominanceinMulti-objective
OptimizationusingPatternRecognition[C].In:Proceedingsofthe2ndInternational
ConferenceonIntelligentSystemDesignandEngineeringApplication(ISDEA).
Sanya,China:IEEE,2012.456−459
[58]GuoG,YinC,YanT,etal.BinaryNearestNeighborClassificationofPredicting
ParetoDominanceinMultiobjectiveOptimization[J].LectureNotesinComputerScience,2012,7331(1):537-545.
[59]GuoG,YinC,YanT,etal.NearestNeighborClassificationofPareto
52湖南理工学院硕士学位论文参考文献DominanceinMulti-objectiveOptimization[C].In:Proceedingsofthe5thInternationalConferenceonAdvancedComputationalIntelligence.Nanjing,China:IEEE,2012:328-331.
[60]郭观七,尹呈,曾文静,等.基于等价分量交叉相似性的Pareto支配性预
测[J].自动化学报,2014,40(1):33-40.
[61]尹呈,曾文静,郭观七,王先锋,用最近邻分类方法预测多目标优化d-Pareto
支配性,计算机应用研究,2013(12):3571-3575.
[62]GuoG,FengC,LiW,etal.PredictionofParetoDominancebyReducing
EquivalentandRedundentDimensionsinDecisionVectors[C].In:EvolutionaryComputation.Toronto:IEEE,2016:2498-2503.
[63]李文彬,贺建军,郭观七,等.基于相关分析的多目标优化Pareto优劣性预
测[J].电子学报,2017,45(2):459-467.
[64]李文彬,贺建军,冯彩英,等.基于决策空间变换最近邻方法的Pareto支配
性预测[J].自动化学报,2017,43(2):294-301.
[65]王耀南.智能信息处理技术[M].北京:高等教育出版社,2003.
[66]BroomheadDS,LoweD.MultivariableFunctionalInterpolationandAdaptive
Networks[J].ComplexSystems,1988,2(3):321-355.
[67]MoodyJ,DarkenCJ.Fastlearninginnetworksoflocally-tunedprocessing
units[J].NeuralComputation,1989,1(2):281-294.
[68]ZhuQ,CaiY,LiuL.AgloballearningalgorithmforaRBFnetwork[J].Neural
Networks,1999,12(3):527-540.
[69]李晶皎,赵丽红,王爱侠,模式识别[M].北京:电子工业出版社,2010.[70]RouhaniM,JavanDS.TwofastandaccurateheuristicRBFlearningrulesfor
dataclassification[J].NeuralNetworks,2016,75:150-161.
[71]GonzalezJ,RojasI,OrtegaJ,etal.Multiobjectiveevolutionaryoptimization
ofthesize,shape,andpositionparametersofradialbasisfunctionnetworksforfunctionapproximation[J].IEEETransactionsonNeuralNetworks,2003,14(6):1478-1495.
[72]赵志刚,单晓虹.一种基于遗传算法的RBF神经网络优化方法[J].计算机工
程,2007,033(006):211-212.
[73]廖金权.蚁群算法优化RBF神经网络的网络流量预测[J].科学技术与工程,
2012,12(34):9238-9242.
[74]ChenS,ChngES,AlkadhimiK.Regularizedorthogonalleastsquares
algorithmforconstructingradialbasisfunctionnetworks[J].InternationalJournal
53湖南理工学院硕士学位论文参考文献ofControl,1996,64(5):9.
[75]LuY,SundararajanN,SaratchandranP.Asequentiallearningschemefor
functionapproximationusingminimalradialbasisfunctionneuralnetworks.[J].NeuralComputation,1997,9(2):461.
[76]TouretzkyD,AlspectorJ,BertholdMR,etal.BoostingtheperformanceofRBF[77]WilamowskiBM,YuH.ImprovedComputationforLevenberg–Marquardt
Training[J].IEEETransactionsonNeuralNetworks,2010,21(6):930-937.[78]WuX,RozyckiP,WilamowskiBM.AHybridConstructiveAlgorithmfor
Single-LayerFeedforwardNetworksLearning[J].IEEETransactionsonNeuralNetworksandLearningSystems,2014,26(8):1-1.
[79]HanchuanPeng,FuhuiLong,ChrisDing.FeatureSelectionBasedOnMutual
Information:CriteriaofMax-Dependency,Max-Relevance,andMin-Redundancy[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2005,27(8):1226-1238.
[80]ReshefDN,ReshefYA,FinucaneHK,etal.DetectingNovelAssociationsin
LargeDataSets[J].Science,2011,334(6062):p.1518-1524.
[81]张海瑞.基于决策空间等价维降维的Pareto优劣性预测研究[D].湖南理工
学院,2019.
54湖南理工学院硕士学位论文主要研究成果攻读硕士学位期间主要研究成果
1发表的学术论文
[1]严太山,文怡婷,李文彬,杨勃.出租车合乘多目标优化方法研究[J].计算机工
程与应用,2019,55(20):222-226.
[2]文怡婷,严太山,李文彬.自适应RBF神经网络在模拟电路故障诊断中的应
用[J].现代计算机,2019(21):23-27.
[3]Tai-shanYAN,Yi-tingWEN,Wen-binLI.High-dimensionalDataClassification
BasedonPrincipalComponentAnalysisDimensionReductionandImprovedBPAlgorithm.2018InternationalConferenceonCommunication,NetworkandArtificialIntelligence(CNAI2018),Beijing,China,April22-23,2018,pp441-445
[4]严太山,文怡婷,黄红霞,程望斌,李文彬.实践类课程教学质量评价指标体系设
计及评价方法研究.湖南理工学院学报(自然科学版),2018,31(2):18-22
2参与的科研项目
[1]有监督机器学习中的高维数据预处理方法研究,湖南省自然科学基金项目,
项目编号:2017JJ2107,2017-2019.
3获得的奖励
[1]湖南理工学院第三届研究生创新论坛优秀论文三等奖.
55湖南理工学院硕士学位论文致谢致谢
岁月流逝,经年花开,毕业之际回首过去近三年的研究生生涯,有不舍有感慨,但更多的是对未来的期待,更重要的是对在这三年里一点一滴收获的感激。感谢我的老师和亲朋好友这一路上在学业生活方方面面的支持和帮助。
首先我要感谢的就是我的导师严太山副教授,严老师教学负责、科研严谨的同时,待人也十分友善可亲。从入学到现在,在学术上严老师一直不断地引导我鼓励我,耐心地教我找出问题分析不足,不断纠正我在专业上的错误认知。在撰写论文时老师的每一次修改和每一个意见都能让我豁然开朗;毕业论文从选题到完成,每一个阶段也都有老师严格把关。在生活上,严老师也是一个十分宽厚随和的人,总会在适当的时候给与我莫大的关照和鼓励,让我也鼓起勇气克服了许多困难。
同时我也要感谢智能信息处理实验室的老师们,感谢李文彬老师、郭观七老师和严老师在一开始给我提供了许多文献,带着我研究入门。没有您们我想我在科研上还要多走许许多多的弯路。感谢潘理老师、杨勃老师和蒋军强老师在学业上为我们解疑答惑,给我们制造了很好的学习环境。
感谢实验室的师兄跻哥、邵泉铭师兄、莎姐姐在我们进实验室的第一年对我们的关照,感谢张海瑞师兄在学术上与我讨论给我帮助。感谢小梦师姐和朱晨妍师妹在生活上给与的陪伴和欢乐。感谢我17级实验室的伙伴程渊、王希、杨明轩,还有17级其他的同学一路上陪我度过三年研究生时光。特别感谢我的室友王锦萍和曾靖的不离不弃,我们在本科就已经认识对方,但可惜从未打过招呼,能在研究生期间成为志趣相投、无话不谈的室友,得到你们的那样多帮助和鼓励,真的让我觉得十分幸运。我还要感谢我的家人,我的爸爸妈妈和弟弟,谢谢你们一直做我人生路上最坚强的后盾,让我可以勇敢的一直前行。
最后,再次感谢所有人。
56
因篇幅问题不能全部显示,请点此查看更多更全内容