・76・弹箭与制导学报2005年
Ξ
基于数据挖掘的飞行参数处理方法研究
梁建海,孙秀霞,杜 军
(空军工程大学工程学院,陕西西安710038)
3
[摘要]文中在分析飞行参数数据特征的基础上,建立基于数据模型的飞行参数数据仓库,实现了模式可
复用的飞参挖掘系统软件的设计与应用,有效解决飞参数据知识发现和模式发现问题。最后,实现了飞参关联规则的有效挖掘。
[关键词]飞行参数;时间序列;数据挖掘;知识发现[中图分类号]V247 [文献标识码]A
TheResearchofFlightDataDisposingTechniqueBasedonDataMining
LIANGJian2hai,SUNXiu2xia,DUJun(DepartmentofAutomaticControl,TheEngineeringInstituteofAirforceEngineeringSchool,Xi’an710038,China)Abstract:Onthebasisofanalyzingtheessenceofflightdata,thispapersetupdatawarehouseofflightdatawhich.Thedesignandapplicationofsoftwareofflightdataminingwiththereusedpatternishavemulti2dimensionalmodelrealizedinthispaper.TheKDDandpatterndiscoveryofflightdataisrealizedeffectively.Atlast,theassociationruleofflightdataisminedefficiently.
Keywords:flightdata;timeseries;datamining;knowledgediscovery
2.1 数据挖掘特点
1 引 言
飞行参数是飞机飞行过程中记录的各种参
数信息,对飞行动作识别、设备性能趋势分析和飞行事故鉴定具有重要的作用。飞行参数历史数据库蕴含有丰富的信息和模式,建立数据仓库进行信息和知识的有效挖掘为解决问题提供了有效的手段。
数据挖掘理论是数据处理领域强有力的方法和工具[1],该理论将数学分析的结果和工程应用背景有机结合,在知识经验指导下寻找数据的内在规律,发现隐含、未知的有效信息并为决策提供依据。
数据挖掘致力于从数据集中发现出有用的规律和知识。特点有:1、强调待发现规律的未知性,不预先作硬性、严格的规定。2、目标更为具体,认为系统行为不都是规律性的,不必要求拟合全体数据。3、数据分析时不单纯运用数学知识进行处理,有人工智能领域的模式识别和机器学习的思想和技术。4、挖掘的目标可以根据具体情况灵活选择,数据分析的形式比较灵活。上述特点决定了数据挖掘技术成为数据库研究中最活跃和最有发展前景的领域。2.2 数据挖掘目标与方法
2 数据挖掘技术与时序数据库
数据挖掘是研究从大型数据库中模式发现技术的可行性、有用性、有效性和可伸缩性的问题,是数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取和信息检索等多学科共同研究的对象。
Ξ收稿日期:2004208220 修订日期:2004211222
数据挖掘通过关联性、分类、聚类、异常性、趋势分析等知识发现活动,寻找频繁模式、关联规则、分类规则、聚类模式、异常模式、周期性规律。目标可分四个方面:趋势分析、相似性搜索、与时间有关的序列模式挖掘和周期模式挖掘。
关联规则发现大量数据中项集之间有趣的关联或相关联系[2]。分类规则用于提取描述重要数据类的模型或预测未来的数据趋势。聚类模式
基金项目:空军装备预研项目,数据挖掘技术在飞参处理中应用研究
作者简介:梁建海(1974—),男,江苏徐州人,博士研究生,主要研究方向:故障诊断与预测,数据仓库挖掘技术。© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第25卷第1期基于数据挖掘的飞行参数处理方法研究 梁建海等・77・
在划分未知类的情况下,将数据对象分成多个类或簇。异常性分析发现不符合一般行为或模型的数据对象。周期性趋势分析发现对象随时间变化的趋势和规律。
2.3 时间序列数据库
时间序列中的值是在按时间顺序在等时间间隔条件下测得的。时序数据库是指随时间变化的序列值或事件组成的数据库,能够实现对时间序列数据的存储和操作,包括对序列的选择、投影、连接以及对序列的各种查询操作。时间序列数据的最大特点在于可以利用时序建模和回归方法进行预测。
行预测。
3.3 数据仓库
飞行参数操作数据库是个历史的、海量的、复合数据源的数据库[3],由于参数本身的意义十分明确,预处理的工作也相对简单,易建成数据仓库。数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,可在进行有效数据挖掘的基础上支持管理人员的决策[4]。
4 飞行参数预处理和数据仓库
飞行参数的操作数据库与数据仓库的区别:・数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限目标是5~10年。
・操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
・操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。因此,需要对飞参数据库进行预处理后建立相应的数据仓库。4.1 飞参预处理方法
飞参数据采集设备的故障,库文件的输入错误,数据传输的错误都会造成数据不完整性,含噪声和不一致。数据预处理能够提高数据质量和挖掘结果的质量,排除数据中的干扰。预处理的步骤是数据清理、数据集成、数据变换和数据归约。
(1)飞参数据清理方法。根据数据帧标志对数据的有效性进行标识,根据飞行手册的性能参数范围删除孤立点,对于噪声数据根据飞行日报表按数据段进行保留或平滑处理。
(2)飞参数据集成方法。对多数据源数据进行多传感器的数据融合,同性质参数如:气压高度和无线电高度,指示空速和真空速,磁航向和真航向;计算参数如:M数、真空速和升降速度等。
(3)数据变换方法。采用最小-最大规范化方法对原始数据进行线性变换,按比例映射到特定区间,一般为[0.0,1.0]。
(4)数据归约方法。采用基于序列变化模式的直线子段表示方法(PKT方法):从序列中选
3 飞行参数数据特点与挖掘目标
飞行参数具有状态点的不可重复性,即代表的系统状态不可能完全复现。除飞行时间和接通次数外,绝大多数飞参数据具有不可叠加性,即数据简单相加不产生任何实质意义。这些特点决定了飞参的处理方法具有其特殊性。对飞行参数在单帧、时序曲线和数据仓库下的特点和挖掘方法进行如下分析,如图1所示。
图1 飞行参数特征与方法分析
3.1 单帧参数
飞行参数按帧记录,包含位置参数、运动参数、操纵参数、主系统状态参数和报警参数。单帧参数挖掘的重点是参数相互关系,如飞机操纵时参数间的同步速率、滞后时间和门限差值,用于操纵灵敏度、稳定性判断。研究参数分布规律可对系统设备良好、预警和故障状态进行判断。3.2 时序曲线
飞机工作时的综合性和复杂性使飞机的全系统模型无法用于预测。时间序列分析可进行基于归纳的有效预测,产生结合可性度的预测区域。进行飞行参数时序分析不能简单地从纯数学的观点去拟合数据,需要从非线性系统和动力学系统抽取时序特征。确定目标数据曲线,抽取相应ARMA时序的模型阶数或建立回归模型再进
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
・78・弹箭与制导学报2005年
择极值点,用这些极值点之间的子段来表示原始序列,对抽取的特征向量进行索引,实现对序列的快速存取,提高查询效率。在保留足够的信息的同时,对原始数据进行高效压缩,减少数据处理时间和存储空间。
4.2 飞参数据仓库模型与实现
5 系统软件设计与结构
关联规则、隐含模式的挖掘和对现有知识库的补充是本系统设计目标[5],为更有效地实现数据挖掘,挖掘模式的复用是系统设计需要作为系统的重要功能。
5.1 挖掘模式复用的问题。
挖掘模式的复用是在软件模式复用中实现的,已挖掘出的软件模式将已证实的技术表述成设计模式,同时促使数据挖掘系统的设计者调整数据模型和概念分层,以利于同类型模式的有效挖掘。通过提供一个显式类、对象作用关系和相互间潜在联系的说明规范实现对数据的有效挖掘。5.2 系统总体设计与结构采用面向数据结构的软件开发方法,从目标系统的输入、输出数据结构入手,导出程序框架结构。采用软件工程中模块化原则对该系统进行分析与设计。整个系统可以分为如下功能模块:分布式飞参读取、数据仓库建库与调整、飞参模式挖掘、报表结果分析和挖掘模式复用模块。
飞参数据仓库的实现步骤如下:
(1)数据模型的建立。维是记录的透视或实体,通常是围绕中心主题组织。飞行参数仓库一般以星型模式建立,创建和使用星型连接为决策支持系统处理优化数据。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据,如图2所示。
图2 飞参星型数据模型
(2)概念分层。概念分层注入了背景知识,
目的是按兴趣度调整粒度大小,实际运行过程中一般采用双粒度(图3),相应的结构由系统用户、领域专家或知识工作师提供。分成模式分层、集合分组分层、操作导出分层和基于规则分层。
(3)度量方法的选择与应用。度量方法的度量中心趋势mean,median,mode和midrage,数据离散度quartiles,outliers,variance和其它统计度量在飞参数据仓库联机分析中都得到应用。
图4 飞参数据挖掘系统结构
(1)分布式飞参读取模块:飞行参数的日
常存储位置有当日飞行飞参磁带、飞参处理设备硬盘和历史飞参数据光盘,形式有原始数据、快速处理后的数据和详细处理后带报表的数据。本模块对上述不同位置和形式的数据进行处理、约简、变换和集成,为数据仓库输入有效数据。
(2)数据仓库建库与调整模块:根据飞参数模型和不同的概念粒度建立飞参数据仓库,含有上、下文信息的调整、索引建立、刷新模块存储外部与非结构化数据。
(3)飞参模式挖掘:包含信息处理、联机分析和模式挖掘模块。飞参信息处理模块支持查询
图3 飞行参数处理的双重粒度
和基本的统计分析,采用OfficeWebComponen2
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第25卷第1期基于数据挖掘的飞行参数处理方法研究 梁建海等・79・
ts组件处理;OLAP模块提供飞参数据仓库中
数据的基本支持模块,支持数据分析,集成了Spss10.0ForWindows中时间序列图功能;通过Matlab6.1数据接口完成VC++6.0编程实现飞参数据挖掘。
(4)报表结果分析和挖掘模式复用模块:报表中所挖掘出的关联规则要经过元规则的二次过滤后在附加约束的条件下提交模型,对基于神经网络的动作分类和设备状态分析的模式进行有效挖掘。挖掘模式复用模块进行同类型模式的有效挖掘,通过面向对象(ObjectOriented)技术中类的继承技术实现。
繁项集简化的生成过程,已将比较符简明表示为三项。
项集
>支<支=支
支持度计数
455211121
项集持度持度持度
计数计数
VyHwAE
45249
5481
Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>Vy>;Hw<;Af>
数
000
⊥
图五 关联规则的挖掘过程示意图6 飞参挖掘的处理结果分析
6.1 规则原型
某型飞机飞参处理专家系统知识库的推理规则表述如下(关联规则形式):(Vy>160)&&(Hw<200)&&(Af>5)]进入爬高阶段(标志)[6]。
6.2 标志模式类计算
经置信度验证后,输出相应的强规则为(Vy>160)&&(Hw<200)&&(Af>5)]进入爬高阶段(标志)。上述方法能够有效对专家系统的规则进行挖掘,结果符合挖掘目标的需要。挖掘方法的可行性与有效性得到了充分的验证。
起飞标志类(CFlight),其中包含无线电高度Hw、气压高度Hq、仪表速度Vy、俯仰角Af、飞机重心法向过载af1、某发压缩机转子转速n。采用Apriori算法,用某月飞行数据进行关联规则挖掘,所得三项阀值的实际趋向如图5所示,经过50个架次数据的叠代,计算值与实际值吻合。
7 结论
基于数据挖掘技术飞行数据处理方法,有效解决了飞行参数知识挖掘问题,所得的挖掘结果与专家所提供的推理结果相同,具有很大的实用价值。
[参 考 文 献]
[1] JiaweiHan等.数据挖掘的概念与技术[M].北京:
机械工业出版社,2001.
[2] R.LKennedySolvingDataMiningProblems
ThroughPatternRecognition[M].1998.[3] TheodoratosD,
Sellis
T.
Designing
Data
Warehouses[J].DataKnowledgeEngineering,1999,31:279-301.[4] CbaudburiS,
DayalS,
GantiV.
Database
TechnologyforDecisionSupportSystems[J].Computer,2001,12:48-55.[5] PedersenTB,
JensenCS.
Multidimensional
DatabaseTechnology[J].Computer,2001,12:40-45.
[6] 梁建海.非精确推理在某型飞机飞参数据处理中
图5 阀值计算结果曲线图
以飞参数据的局部增量∆d的上升或下降
趋势为标志,确定比较符的频繁项集,图5是频
的应用研究[D].空军工程大学硕士生学位论文.
2003.
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net