您的当前位置:首页正文

浅析数据挖掘技术的应用

来源:九壹网
浅析数据挖掘技术的应用

摘要:在信息爆炸的社会里数据急剧膨胀,数据的产生、筛选、存储、使用成了信息社会

的一大主题,并且随着信息技术的飞速发展,各行各业积累了大量的历史数据,但由于缺乏有力的分析工具,使得重要的决定常常不是基于数据库中丰富的数据,而是基于决策者的直觉。因此建立决策支持系统,提高决策者高效的数据分析能力的研究就十分重要,数据挖掘技术正是在这一背景下提出并逐渐应用一于各行各业的数据处理和信息管理之中。本文首先对数据挖掘技术做了简要介绍,探讨了数据挖掘技术的发展、概念以及数据挖掘常用技术和数据挖掘工具等。其次对零售行业、邮政业以及物流业中的典型应用现做了分析。

关键词:数据挖掘技术;数据挖掘工具;零售业;邮政业;物流业

一、数据挖掘介绍

(一)什么是数据挖掘

对数据挖掘(DataMninig)有许多不同的定义,但他们几乎都使用日益增强的计算技术和高级统计分析技术来揭示大型数据库中的可用关系。

GartnerGorup的定义:数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它使用模式认知技术!统计技术和数学技术。

AarnoZomes的定义:数据挖掘是一个从大型数据库中提取以前不知道的可操作性信息的知识挖掘过程。

一般说来,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘与传统的数据分析(如查询、报表、联机分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具先前未知、有效和可实用三个特征。 (二)数据挖掘的基本特点和几种分类模型

数据挖掘技术有以下几个基本特点:

1、数据挖掘是对数据库进行的一种操作,数据库是数据挖掘的主要操作对象。

2、数据挖掘是要发现隐含的,先前未知的信息。只有新颖的信息才能够为决策者的决策提供新的依据。

3、数据挖掘产生的信息是应该具有潜在价值的,同时应该注意到数据的合法性以及时效性。

1

4、数据挖掘所处理的数据库往往是一个大量或者海量数据库。这就促使数据挖掘技术通常是在一定的运算效率的约束下进行,以保障信息的时效性。

根据数据挖掘的应用类型不同,数据挖掘大致可分为以下几类模型: 1、分类模型。其主要功能是根据数据的属性将数据分派到不同的组中,通过分析分组中数据的各种属性,找出数据的属性模型。

2、关联模型。主要是描述了一组数据项目的密切度或关系,通过挖掘数据派生关联规则,了解被分析者的行为。

3、顺序模型。主要用于分析数据仓库中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的关联模型。

4、聚簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类模式时,按照某种相近程度度量方法将用户数据分成互不相同的一些分组。进而,通过采用聚簇模型,根据部分数据发现规律,找出对全体数据的描述数据挖掘研究中的挑战。

(三)实施数据挖掘项目应注意的问题

1、在数据库中挖掘不同类型的知识。由于不同的用户可能对不同类刑的知识感兴趣,数据挖掘系统应当覆盖范围很少。目前的数据挖掘技术还不足以支持这些任务以不同的方式使用相同的数据库。

2、结合背景知识。即使用背景知识或关于所研究领域的信息来指导发现过程,并将发现的模式以简洁的形式在不同的抽象层表示。目前的数据挖掘系统或工具很少一让用户参与到挖掘过程中。将相关领域的知识融入数据挖掘系统中是一个重要但没有很好解决的问题。

3、在数据准备阶段,尚没有较好的方法快速去除或修改噪音数据及处理空缺的数据。

4、挖掘的对象问题。目前的很多数据挖掘系统还没有建立在较先进的数据仓库基础上。

5、多种形式的输入数据。目前的绝大部分工作还只停留在对结构化数据的研究上。多种半结构、无结构的数据类型上的研究还较欠缺。

6、在知识的表达及对问题的解释方面,目前的系统缺乏对整体挖掘结果的总结与概括。

2

7、在数据可视化方面,还只停留在对结果的简单图形描述,而没有体现到可视化的真止内涵。

8、所有的数据挖掘系统,由于不是面向任务或问题的系统,而导致系统不易被掌握,从而偏离了数据挖掘容易使用的目标。

9、新的数据积累可能导致以前发现的知识失效,这些知识需要动态维护和及时更新。

10、证实技术的局限。如何证实所得到的结果,目前的技术还很不成熟。上面只是数据挖掘技术所面临问题的一部分,这些问题的有效解决,将会使人们对数据挖掘技术有更为深入的了解的掌握。 (四)数据挖掘产生的背景

计算机硬件稳定性的不断提高和令人吃惊的发展导致了功能强大的计算机、数据收集设备和存储介质的大量供应。数据库和信息产业的发展,使得大量数据和信息存储用于事务管理!信息检索和数据分析。数据的丰富带来对数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们己经远远超出了人的能力。结果,收集在大型数据库中的数据变成了“数据坟墓”难得再访问的数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉。因为决策者缺乏从海量数据中提取价值信息的工具。此外,考虑当前的专家系统技术,通常这种系统依赖用户或领域专家人工地将知识输入知识库,不幸的是,这一过程常常有偏差和错误、并且耗时、费用高、数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。

二、数据挖掘常用技术

数据挖掘常用技术包括:神经网络、决策树、遗传算法、近邻算法、规则归纳。下面将对这几种技术进行简单的描述。

(一)神经网络。神经网络是模拟人脑结构的数据模型。神经网络仿照生理神经网络结构的非线形预测模型,从一组输入数据中进行学习,根据这一新的认知调整模型参数,以发现数据中的模式。神经网络为解决复杂度大的问题提供了一种相对来说比较有效的简单方法,可以很容易的解决具有上百个参数

3

的问题。它的应用非常广泛,主要用于市场细分,信用卡欺骗,信贷风险预测和特征发现等。

(二)决策树。决策树是一种典型的分类算法,可以得到类似在什么条件下会得到什么结果的规则。比如,建立运输网络决策树模型,进行细分;找出最有可能对总的运输成本最低的方案

(三)遗传算法。遗传算法是基于进化理论,并采用遗传结合、遗传、变异以及自然选择等设计方法的优化技术。遗传算法有三个子算法组成: 殖、交叉、变异

(四)近邻算法。相互之间“接近”的对象也会有相似的预测值。这样,如果你知道了其中一个对象的预测值,也就可以用它来预测它最近的邻居对象。

(五)规则归纳。规则归纳就是通过统计方法归纳、提取有价值的规则。规则归纳技术在数据挖掘中被广泛应用。神经网络经常为人所指责的一点是它只能给出学习模型的黑盒表示,而基于规则的数据挖掘技术则可以给出模型的生成规则描述。

三、数据挖掘工具

数据挖掘工具分为特定领域的数据挖掘工具和通用的数据挖掘工具。 (一)特定领域的数据挖掘工具

特定领域的数据挖掘工具是针对某些特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作出优化。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,这样可以处理特殊的数据,实现特殊的目的,发现的知识可靠性也比较高。特定领域的数据挖掘工具主要包括如下工具:

KDI一商业,交通运输业; OPtions&Choiees一保险业; HNC一欺作行为探察; Uniea Model一市场。 (二)通用的数据挖掘工具

通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,面向的是非特定应用的。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。主要包括如下工具:

4

SAS Enteprrise Miner: IBM Intelligent Miner: MS SQL Analysis Sevrices Ulliea PRW: SPSS Clementine; Oraele Darwin;

Angoss Knowledge Seeker\"

四、数据挖掘技术在零售业、邮政业、物流业中的典型应用

(一)数据挖掘在零售业领域的典型应用

1、了解销售全局

通过分类信息—按商品种类、销售数量、商店地点、价格和日期等了解每天的运营和财政情况,对销售的每一点增长、库存的变化以及通过促销而提高的销售额都可了如指掌。 2、降低库存成本

通过数据挖掘系统,将销售数据和库存数据集中起来,通过数据分析,以决定对各个商品各色货物进行增减,确保正确的库存。 3、商品分组布局、购买推荐和商品参照分析

通过从销售记录中挖掘有关信息以发现购买某一种商品的顾客可能购买其他商品。这类信息应用于形成特定的购买推荐,或者保持一定的商品分组布局以帮助客户选择商品,刺激顾客的购买欲望从而达到增加销售额以及节省顾客购买时间的目的。

4、促销活动的有效性分析零售业常常通过广告、优惠券、各种折扣和让利的方式搞促销活动,以达到促销产品,吸引顾客的目的。

5、市场和趋势分析

利用数据挖掘工具和统计模型对数姗库的数据仔细研究,以分析顾客的购买习惯、广告成功率和其它战略性信息。利用数据库通过检索数据库中近年来的销售数据,作分析和数据挖掘,可预测出季节性、月销售量,对商品品种和库存的趋势进行分析。

6、顾客保持力——顾客忠诚度分析

5

各个零售企业往往通过办理会员卡的方式,建立了顾客会员制度来跟踪顾客的消费行为。通过对顾客会员的信息进行数据挖掘,可以记录一个顾客的购买系列,顾客的忠诚和购买趋势可以按系统的方式加以分析。 (二)数据挖掘在邮政网运系统中的典型应用

1、了解邮件在南通区内运输和处理全过程

通过对邮件的总包信息进行分类处理一按邮件总包种类、数量、日期、邮路信息或处理中心信息等了解每天的邮路和各县市处理中心运行情况。对于邮路可能是否超负荷运行,是否要安排加办邮路;对邮路长期运能进行分析,确定某条邮路是否运行效率低下,是否要更换小车或者对邮路进行合并处理等

2、降低运输和处理成本

通过数据挖掘系统,对每一袋邮件的运输成本、处理成本的变化都要了如指掌。邮政企业通过对运输成本的分析,随时检查邮路结构是否合理,这十分重要,如每天邮车都能做到满负荷运行又没有邮件剩余,则邮路的安排和邮车配置合理,否则就需要对邮路结构、邮车或者是否安排加办邮路等方法来进行调整。

3、对县(市)处理中心能力进行分析

各县(市)处理中心是邮政企业实物流的关键节点环节,是实现对邮车运输过来的邮件按照邮件种类,邮件的流向和下一级处理中心之间的关系,对邮件总包进行开拆、分类、汇总打包,并把不同方向的总包装入不同方向的邮车上。

4、对邮路运能分析

邮路是邮政企业实物流的连接各处理中心或处理中心和各网点之间的桥梁,是形成实物流的直接体现。邮路运能直接关系邮件的处理时限,也是邮政核心竞争力的体现。通过对邮路每日的运输量进行分析,对邮路进行分析,合理的安排运输工具!运输的次数,减少邮件的积压,提高邮政企业的竞争力。

5、按邮件种类进行分析

邮政实物网运输着不同种类的邮件,有特快专递EMS、经济特快、快递包裹、普通包裹、报刊杂志、物流包裹、函件和印刷品等等邮件。不同的邮件对网络的处理时限要求不同,在实物流网中占比也就不同,这就需要对不同种类的邮件进行分析。

(三)数据挖掘在物流中的应用

1、了解运输全局

6

通过分类信息按货物种类、数量、地点日期等了解每天的运营和财政情况,对每一货物的运输成本、库存的变化都要了如指掌。物流商在运输货物品时,随时检查货物运输结构是否合理,这十分重要,如每类货物的配送比例是否大体相当。调整货物运输结构时一定要考虑季节变化导致的需求变化、同行竞争对手的竞争策略等因素。

2、降低库存成本

通过数据挖掘系统,将运输数据和库存数据集中起来,通过数据分析,以决定对哪些货物进行先行发货,以确保正确的库存。数据挖掘系统还可以将库存信息和货物预测信息,通过电子数据交换直接送到客户那里,这样可以定期增加或者减少库存,物流商也可减少自身负担。

3、货物分组布局!运输推荐参照分析

通过从统计记录中挖掘有关信息,可以发现运输某一种货物的顾客可能运输其他货物。这类信息,可以形成固定的运输推荐,或者保持一定的组合,货物分组布局,以帮助客户方便发送货物,打动顾客的心从而达到增加营业额

4、市场和趋势分析

利用数据挖掘工具和统计模型对数据库的数据仔细研究,以分析客户的运输习惯和其它战略性信息。利用数据库通过检索数据库中近年来的物流数据,通过数据挖掘,可以对季节性、运输量,对货物品种和库存的趋势进行数据挖掘分析。还可以确定风险货物,并对数量和运作作出决策。

五、总结:

数据挖掘技术是在当前特定的科学背景和技术条件下迅速形成与发展起来的。首先激烈的市场竞争不仅为数据挖掘的产生提供了必要的基础和条件,而且还产生迫切的实际需求,从而推动了这个学科的形成和发展\"其次数据库理论和机器学习等计算机理论的日臻完善,为这个学科的形成奠定了基础,积累了经验。最后,统计学的数学背景和追求精确的特点,为这个学科补充了新的方法和观点。现在的各种数据挖掘技术都处在不断研究的阶段,新的理论不断出现,已经成熟的数据挖掘技术还须在实践中不断摸索。

参考文献:

[1]张尧庭、谢邦昌、朱世武,数据采掘入门及应用,中国统计出版社,北京,2001 [2]范明、孟晓峰等译,数据挖掘概念与技术,机械工业出版社,北京,2001 [3]张银奎、廖丽、宋俊,数据挖掘原理,机械工业出版社,北京,2003

7

[4]朱扬勇、左子叶、张忠平等译,数据挖掘实践,机械工业出版社,北京,2003 [5]田艳,数据挖掘技术的应用及发展,统计与信息论坛,2004.4.18一21 [6]姚毓才,王本年,数据挖掘工具的分类与挖掘,计算机技术和发展,2006

8

因篇幅问题不能全部显示,请点此查看更多更全内容

Top