您好,欢迎来到九壹网。
搜索
您的当前位置:首页正文

数据仓库与数据挖掘

来源:九壹网
数据仓库与数据挖掘技术

第一章

数据仓库的定义:综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。

与数据仓库相关的几个概念 P4

操作数据—来自组织的进入数据仓库的操作型数据。操作数据不是数据仓库本身的组成部分。当然,没有操作型数据,数据仓库就不可能存在。

汇总数据—提前计算出来并且存储在数据仓库数据库中为日后需要时调用的数据。分析员通常都对数据仓库的预期用途有深刻的洞察力,以便知道在重现基础上得到所需要的某些汇总数据。 原子数据

特定查询响应

数据集市:通常是指较小型化、针对特定目标且建设成本较低的一种数据仓库。数据集市可分为两种:独立的数据集市和非独立的数据集市。前者是根据操作数据独立形成的,后者是从中央数据仓库派生出来的。 数据仓库的特点:P6 主题与面向主题(数据库是面向应用进行的数据组织,而数据仓库是面向主题进行的数据组织。面向应用进行的数据组织方式的特点如下:

一、面向应用进行数据组织,是指对企业中相关的组织、部门等进行详细调查,收集基础数据进入其处理的过程。调查的重点是“数据”和“处理”,在进行数据组织时应充分了解企业的部门组织结构,考虑到企业各部门的业务活动特点。 二、面向应用进行数据组织应反映一个企业内数据的动态特征,即要求表达每个部门实际业务处理数据的流程:从什么地方获取输入数据,在部门内进行什么样的数据处理,以及向什么地方输出数据。 三、面向应用进行数据组织方式生成的各项数据模式与企业实际业务处理流程中所涉及的单据或文档有很好的对应关系,这种对应关系使得数据模式具有很强的操作性,因而可以较好地在这些数据库模式的基础上建立起各项世纪的应用处理。

对于面向主题方式的数据组织应该分为两个步骤:抽取主题以及确定每个主题应包含的数据内容。)

数据的集成性(数据仓库的数据是从原有的分散的数据库数据中抽取来的。 与分散数据库的数据相比,数据仓库数据的不同之处在于: 第一,数据仓库的每一个主题所对应的元数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据要和其应用逻辑捆绑在一起。

第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。) 数据的不可更新性

数据的时态性:这一特征主要表现在以下三个方面: 1)数据仓库随时间变化而不断增加新的内容。

2)数据仓库的数据有存储器先,一旦超过了这个期限,过期数据就要被删除。 3)数据仓库中包含有大量的综合数据,这些综合数据很多跟时间有关,如数据经常按照时间段进行综合,或每隔一定的时间段进行抽样等。 数据进入数据仓库的基本过程:

操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总 提取是从操作型数据库中选择并提取出所需要的字段 变换是为所有来自数据源的数据指定常用的格式和名称 净化是尽量地更正错误的数据

加载是把净化过的数据载入到数据仓库数据里

汇总是提前计算出任何期待的数据仓库数据的汇总供以后使用

数据挖掘概念:是数据库中知识的发现。

(或:是发现数据中隐藏的模式和关系的过程。) (或:我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。)

数据挖掘的基本过程:P20

数据准备(本阶段有可以进一步细分成数据集成、数据选择和预分析。) 挖掘:(数据挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据。) 表述:(与检验证型工具一样数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。)

评价:(评价数据挖掘工具的主要指标:数据准备、数据访问、算法与建模、模型评价和解释、用户界面。) 数据挖掘的应用: 零售业 业务问题 解决方案 增加对直接信函(direct mail)的响应率; 销售人员通过数据挖掘建立的预测模型以了解哪些人最 有可能对直接信函做出响应 ; 获得的收益 由于直接将信函发送给正确的客户而增加了销售额 保险业 业务问题 解决方案 减少保险欺诈案件的发生数量; 业务人员通过数据挖掘建立预测模型,识别出哪些赔偿要求最有可能具有欺诈性; 改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何如采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型; 金融分析员通过数据挖掘建立预测模型,以识别出历史上曾引起过市场被动的因素所具有的模式; 获得的收益 由于减少欺诈造成的费用而增加了利润。 金融业 业务问题 解决方案 获得的收益 由于投资更加准确而增加了收益 数据挖掘在具体商业中的应用:直销、争取客户、保留客户、交叉收益、趋势分析、欺诈检测。 第二章

1、数据库的生命周期:

2、数据仓库的其他阶段(了解p52~p53) 系统分析、系统设计、系统测试 3、数据仓库的基本体系结构:

客户应用:是供用户访问查询,并以直观的方式展现分析结果 数据仓库:是存储不同程度的数据和元数据

集成器,是将从运作数据库中提取的数据经过转换,计算,综合等,集成到数据仓库中

监视器:是负责感知数据源发生的变化,并按需求提取数据 数据源:是为数据仓库提供最底层的数据运作系统以及外部数据 以下为数据仓库的基本体系结构图

数据仓库的逻辑结构

粒度:是指数据仓库的数据单位中保存数据的细化或综合程度的级别。(细化程度越高,粒度级就越小)

双重粒度级:是指轻度综合数据级和真实细节数据级。 数据分割:是把数据分散到各自的小物理单位中去,任何给定的数据单元属于切仅属于一个分割,它们能够独立处理,分割后的小的数据单元具有比大物理单元更大的灵活性,能够实现重构,索引,顺序扫描,重组,恢复和监控等功能。

元数据:是描述数据仓库内数据的结构和建立方法的数据,按用途可分为:技术元数据和商业元数据。

第三章

1、事实数据与维数据的区别: 事实数据 百万亿行 多个外码 数值确定的 不改变 维数据 十到几百万行 一个主码 文字描述的 经常改变 2、在设计数据仓库时一般包括9个步骤:

1)选择合适的主题(所要解决问题的领域),2)明确定义事实表,3)确定和确认维,4)选择事实(choosing the facts),5)计算并存储fact表中的衍生数据段,6)找出维表(rounding out the dimension tables),7)选择数据库的时段(choosing the duration of the database),8)跟踪改变维的需求(the need to track slowly changing dimensions),9) 确定查询优先级和查询模式。 【8、9可以去掉】

3、星型数据模型包括一个中央表(事实表)和一序列的附表(维度表),附表环绕中央表,并产生关系,但不关联。

第五章

1、数据挖掘的基本流程:

2、数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。

3、数据预处理的步骤:①数据的收集和准备;②数据清理;③数据集成;④数据变换:就是将数据进行规范化和聚集;⑤数据归约:通过聚集、删除冗余特性

或聚类等方法来压缩数据。 第六章

1、数据挖掘算法:分类(包括决策树)和估值、预测分析与趋势分析、关联分析算法等。

2、分类的主要目的:是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。 3、决策树:

决策树方法的基本思想是:利用训练集数据自动地构造决策树,然后根据这个决策树对任意实例进行判定。 构造过程:①从数据源中选取变量。②分析每个对结果产生影响的变量对每一变量的值进行分组。③计算得到基于每一变量的分组之后即可找到对于因变量来说最具有预测性的一个变量并且可用这个变量来创建决策树的叶子节点。 4、贝叶斯定理:

贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率。 朴素贝叶斯分类:假定有m个类错误!未找到引用源。,错误!未找到引用源。,…,错误!未找到引用源。,对于数据样本X,分类法将预测X属于类错误!未找到引用源。,当且仅当P(错误!未找到引用源。|X)> P(错误!未找到引用源。|X),1≤j≤m,j≠i

据贝叶斯定理错误!未找到引用源。

由于P(X)对于所有类为常数,只需最大化错误!未找到引用源。。 计算错误!未找到引用源。,朴素贝叶斯分类假设类条件独立,即给定样本属性值相互条件独立P(错误!未找到引用源。,„, 错误!未找到引用源。

|错误!未找到引用源。)=P(错误!未找到引用源。|错误!未找到引用源。)*„* P(错误!未找到引用源。|错误!未找到引用源。)

计算:

例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类: 字段为(年龄(取值:<30,30~40,>40);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N)) 记录为14个,具体数据如下:

X1=(<30, 高, N, 一般,N); X2=(<30, 高, N, 很好,N); X3=(30~40, 高, N, 一般,Y); X4=(>40, 中, N, 一般,Y); X5=(>40,低, Y, 一般,Y); X6=(>40, 低, Y, 很好,N); X7=(30~40,低, Y,很好,Y); X8=(<30, 中,N, 一般,N); X9=(<30,低, Y,一般,Y); X10=(>40,中, Y,一般,Y); X11=(<30,中,Y,很好,Y); X12=(30~40,中,N,很好,Y);

X13=(30~40,高,Y, 一般,Y); X14= (>40,中,N,很好,N);

利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性 X=(年龄<30,收入=中,学生否=Y,信用=一般) 本例只有两个类别,即错误!未找到引用源。={购买计算机},错误!未找到引用源。={不购买计算机},P(错误!未找到引用源。)为每个事件的事前概,P(错误!未找到引用源。)=9/14=0.643, P (错误!未找到引用源。)=5/14=0.357,为了计算P(X|错误!未找到引用源。)(i=1,2),先进行以下运算:

P(年龄<30|错误!未找到引用源。)=2/9, P(年龄<30|错误!未找到引用源。)=3/5

P(收入=中|错误!未找到引用源。)=4/9, P(收入=中|错误!未找到引用源。)=2/5

P(学生否=Y|错误!未找到引用源。)=6/9, P(学生否=Y|错误!未找到引用源。)=1/5

P(信用=一般|错误!未找到引用源。)=6/9, P(信用=一般|错误!未找到引用源。)=2/5

因此 P(X|错误!未找到引用源。)=(2/9)*(4/9)*(6/9)*(6/9)=0.044 P(X|错误!未找到引用源。)=(3/5)*(2/5)*(1/5)*(2/5)=0.019 最后计算 P(X|错误!未找到引用源。)*P(错误!未找到引用源。) (i=1,2) P(X|错误!未找到引用源。)*P(错误!未找到引用源。) =0.044*0.643=0.028

P(X|错误!未找到引用源。)*P(错误!未找到引用源。)=0.019*0.357=0.007

因为 P(X|错误!未找到引用源。)*P(错误!未找到引用源。)>P(X|错误!未找到引用源。)*P(错误!未找到引用源。)

所以根据贝叶斯分类方法可知,数据对象X属于购买计算机类,即X∈错误!未找到引用源。

(分母相同只需比较分子的大小即可。) 5、定性预测:(人的判断)根据对象,可分为①集合意见(三种估计加权预测法),它是一种加权综合判断法;②用户意见调查法(设计调查表);③员工意见法;④专家评估法;⑤类推法。

6、定量分析预测:①时间序列分析法;②回归预测;③非线性模型;④灰色预测模型GM(1,1);⑤组合预测。

7、关联规则挖掘:是寻找数据项中的有趣联系,决定哪些事物将一起发生。 8、一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则。

9、最小支持度minsup,支持度定义为数据库中同时包含产品A和B的事物占总事物的最小百分位。 10、最小置信度minconf

11、置信度定义为同时包含产品A和B的事物占只有包含产品A事物的百分位。 看书了解p146 第三行至第十二行

12、关联规则的优点:可产生清晰有用的效果;支持间接数据挖掘;可以处理变长的数据;它计算的消耗量是可以预见的。

缺点:当问题变大时,计算量增长较大;难以决定正确的数据;容易忽略离群数据。

13、简单形式的关联规则算法(单维,单层,布尔关联规则) 核心算法

①找到所有支持度大于最小支持度的项集,即频集,有K个数据的频集称为K项频集。

②使用第一步找到的频集产生期望的规则。 6_4

1、聚类分析(clustering):是对群体及成员进行分类的递归过程。一簇是一组数据对象的集合,在同一簇的对象彼此相似,而不同簇的对象彼此相异。

2、聚类分析是对输入集中的记录进行分类,由聚类分析工具根据一定规则,合理划分记录集合,把相似的记录放在一个聚集里,用显式或隐式的方法描述不同的类别。

3、聚类分析方法的分类: 类别 分裂(划分)法 层次法 基于密度的方法 基于网格的方法 基于模型的方法 算法 K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(给予选择的方法) BIRCH算法(平衡迭代归约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型) DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数) STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换) 统计学方法、神经网络方法 4、欧几里得距离:(最常用的距离度量方式)

5、曼哈顿距离:

需满足条件:(1)d(i,j)>=0:距离是一个非负的数值; (2)d(i,j)=0:一个对象与自身的距离是0; (3)d(i,j)=d(i,j):距离函数具有对成性; (4)d(i,j)<=d(i,h)+d(h,j):从对象i到对象j的直接距离不回答与途经任何其他对象h的距离(三角形不等式)。 6、明考斯基距离:

加权法可以用于曼哈顿距离和明考斯基距离。

7、典型的划分方法:k-平均和k-中心 基于簇的重心技术:k-平均(k-means);基于有代表性的对象的技术:k-中心点方法 ;

K-means聚类的算法思想: K-means聚类的算法步骤:(1)设置初始类别中和类别数;(2)根据类别中心对数据进行类别划分;(3)重新计算当前累别划分下每类的中心(4)在得到类别中心下继续进行类别划分(5)如果连续两次的类别划分结果不变则停止算法,否则循环2—5。 K-means聚类的算法优缺点:(1)优点:聚类时间快;(2)缺点:容易陷入局部最优,不稳定对初始参数敏感,只聚类球状数据。

8、凝聚的层聚分类:方法AGNES ;

这种自底向上的策略首先将每个对象作为一簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上会有所不同。 思想:一开始将每个对象作为单独的一组,然后根据同类相近,异类相依的原则,合并对象,知道所有组并成一个,或达到一个终止条件为止。

步骤:四个广泛采用的簇间距离度量方法如下:最小距离:dmin(Ci,Cj)=minp∈Ci,P∈Cj∣P-P∣最大距离:dmax(Ci,Cj)=maxp∈Ci,P∈Cj∣P-P∣平均值的距离:dmean(Ci,Cj)= ∣mi-mj∣平均距离:davg(Ci,Cj)=(Σp∈Ci,P∈Cj∣P-P∣)/ninj

优点:算法简单、快速;处理大数据集,相对可伸缩和高效的;聚类可根据实际情况而定,可解释性;

缺点:凝聚时间慢;没有很好的可伸缩性;对初值敏感。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top