《数据分析与挖掘算法》课程教学大纲
一、课程基本信息
课程编号:12161
课程名称:数据分析与挖掘算法
英文名称:Data Analysis and Mining Algorithm 课程类型:学科基础课 课程要求:必修
学时/学分:48/3(讲课学时:36 实验学时:12) 先修课程:概率论与数理统计、Python语言程序设计
后续课程:Spark大数据处理、行业大数据案例分析、SPSS数据分析与挖掘、
数据分析与挖掘实践等。
适用专业:数据科学与大数据技术
二、课程描述
“数据分析与挖掘算法”是数据科学与大数据技术专业的学科基础课,旨在引导学生在大数据背景及认识大数据的基础上,充分掌握数据分析与挖掘的原理,建立利用大数据处理技术有效地进行大数据分析与挖掘任务的能力。通过对基本概念的深刻理解,掌握数据分析与数据挖掘的主要方法/技术;区分不同数据,完成数据相似性和相异性的判定训练;通过数据特征分析与具体数据预处理方法如二值化、分箱器、正则化、标准化等,建立数据预处理的流程,并形成利用Spark工具解决数据规范和标准的能力;通过数据仓库和OLAP之间的互补关系,实现抽取数据集并存储到OLAP的过程,形成利用数据仓库与联机分析解决决策性工程问题应用的能力;通过不同的挖掘方法如关联规则、分类和聚类等与实际问题相结合,形成利用数据分析与挖掘算法解决大数据领域中工程问题的能力。通过课程学习,使学生能够应用数据分析与挖掘算法的基本原理和方法,区分、处理和解决大数据应用领域的工程问题,并能够对数据分析与挖掘的结果进行分析和解释,从而获得合理有效的结论及切实可行的解决方案。
三、课程教学目标
1.能清晰表述数据分析与挖掘的的基本概念、掌握其常用数据分析方法和挖掘算法,能够分析和解决大数据领域复杂工程问题。(支持毕业能力要求2)
2. 能够利用数据分析和挖掘处理大数据及确定合适方案,能够选择合适数据分析方法和数据挖掘算法,并利用Python语言解决实际的工程问题。(支持毕业能力要求4、5)
1
3. 能够阐述数据分析和挖掘算法的不同技术方法和其应用、发展的前景。(支持毕业能力要求2、4)
四、教学内容、安排及与教学目标的对应关系
单元 1 一、概述 1.1数据分析与数据挖掘 1.2数据分析和数据挖掘的主要方法和技术 1.3数据分析和挖掘应用 学时 2 教学 方式 讲授 对应课程教学目标 1 教学内容 单元教学目标 (1)理解数据分析与数据挖掘的概念,能够清晰表述二者之间的区别与联系;(2)了解数据分析与挖掘可以选用的的主要方法/技术;(3)了解数据分析与挖掘的应用场景,能够举例说明其中存在的问题。 2 二、数据 2.1数据类型及属性类别 2.2数据基本统计描述 2.3数据的相似性和相异性度量 (1)明确数据的属性、字段和每种属性对应的数据类型;(2)能够根据给定数据清楚地将数据采用箱图、饼图、频率图等展示出来,展示数据的走势和相关性;(3)能够举例准确描述数据的相似性和相异性。 4 讲授 1 2.4数据预处理必要性 2.5数据预处理的任务 2.6数据清洗、数据集成、数据归约、数据变换与数据离散化 (1)明确原始数据中可能存在的问题如,数据不一致、噪声数据、缺失值等;(2)能够对缺失值、噪声和不一致的数据进行处理,使数据保持一致性;能够对不同数据源的数据集成;能够通过数据归约减少数据的冗余量;能够实现数据的泛化、规范化及离散化等。 4 讲授 1 3 三、数据仓库与OLAP 3.1数据仓库的基本概念 3.2数据仓库的设计与实现 3.3联机分析处理 (1)能够清晰地描述数据仓库的定义并阐述数据仓库的体系结构;(2)掌握数据仓库的概念模型设计,如星形模型、雪花模型、事实星座模型等;掌握数据仓库2
4 讲授 1、3
的逻辑模型设计,如事实表模型、维表模型等;(3)理解数据仓库和OLAP之间的互补关系,理解如何从数据仓库抽取数据子集并进行必要的聚集存储到OLAP的过程。 实验1:数据库的安装及可视化工具配置、构造数据仓库 4 四、关联规则挖掘 4.1关联规则的基本概念 4.2基于候选项产生-测试策略的频繁模式挖掘算法 4.3不需要产生候选项集的频繁模式挖掘算法 (1)安装mySQL数据库且配置可视化工具;(2)构建数据仓库。 (1)明确关联规则的构成,能够表述关联规则的表达式含义;(2)理解Apriori算法的思想,能够根据候选集生成和向下封闭检测两个阶段挖掘频繁项集;(3)理解FP-Growth算法的思想,能够阐述算法获取频繁模式的过程。 实验2:采用关联规则挖掘实验 (1)给定详细的事务数据,如某商店的详细事务数据,根据给定的数据能够形成数据集;(2)设计并实现Apriori算法和FP-Growth算法;(3)对比两个算法实现的结果,分析两种算法实现的优势和劣势。 5 五、分类 5.1分类概述 5.2决策树-ID3算法/C4.5算法等 5.3惰性学习法-K临近算法 5.4贝叶斯分类器 5.5回归分析 5.6逻辑回归算法 5.7线性可分支持向量机算法 5.8神经网络-BP神经网络分类算法 1.(1)理解分类的基本概念,能够阐述和区分不同分类的评价指标;(2)能够利用ID3算法/C4.5算法设计并实现相应的案例,如贷款申请分类、个人信贷分类、个人身体状况分类等;(3)能够确定惰性学习的K值、目标类别、距离指标等,并能够正确描述K临近算法;(4)能够使用贝叶斯分类器实现分类;(5)理解变量间的关系,熟悉一元回归/二元回归根据给定数据集建立数学模型和解释3
2 实验 1、2 4 讲授 自学 1、3 2 实验 1、 2 10 讲授、讨论 自学 1、3
变量之间的关系,如商品销售量和价格之间的关系;(6)理解逻辑回归公式各参数的含义,熟悉逻辑回归实现过程,能够采用逻辑回归算法实现分类操作;(7)通过实现线性可分支持向量机算法,能够获得一个分类模型或者分类器;(8)理解神经网络的算法过程并实现神经网络的分类算法。 实验3:分类算法实验 (1)熟悉不同分类算法的实现过程,根据不同案例选择合适算法;(2)利用ID3算法或C4.5算法实现信息增益的计算(给定贷款训练集等);(3)利用K邻近算法实现物种分类(给定物种训练数据)。 6 六、聚类算法 6.1聚类的概念与聚类算法的分类 6.2距离度量 6.3基于划分的聚类算法 6.4基于密度的聚类算法 6.5基于层次的聚类算法 6.6基于模型的聚类算法 6.7基于网络的聚类算 实验4:聚类算法实验 (1)能够了解聚类的意义和分类;6 (2)了解聚类算法中通常采用的距离评价指标,如幂距离、欧式距离、曼哈顿距离、余弦相似度、兰氏距离、马氏距离、海明距离等;(3)对于不同的聚类算法,能够确定其相似性的评价指标、能够针对给定案例的数据样本设计并实现相应的聚类算法。 (1)熟悉不同分类算法的实现过程,根据给数据集选择合适算法并确定评价指标;(2)选择相应的聚类算法完成聚类操作。 7 七、异常检测 7.1异常检测评价指标 7.2异常检测问题的特点 7.3异常检测算法分类 (1)了解异常检测的评价指标,能够确定异常值;(2)了解现实环境中异常检测的应用场景,如网络入侵检测、医疗处理检测等;(3)了解异常检测可采用的检测算法,如统计学法、近邻法、聚类4
4 实验 1、2 讲授、讨论 自学 1、3 4 实验 1、2 2 讲授、讨论 自学 1、3
法、分类法等。 五、其他教学环节(课外教学环节、要求、目标)
1. 自学
关联规则挖掘、分类和聚类单元要在授课前完成自学授课内容,能够准确解释规则、一元/二元回归、、曼哈顿距离等,达到能够无障碍地进一步学习挖掘算法的目标。
2. 运用
异常检测单元学习前,自行收集资料,阅读文献,分别针对不同的大数据背景下异常检测应用场景进行总结,并针对具体问题展开讨论。
六、教学方法
本课程采用课堂教学和实践教学结合方式。在课堂教学中,以讲授、讨论为主,结合自学和慕课等教学方法和手段完成课程教学任务。
1.在课堂教学中,将单元教学目标通过讲授及对预先设置自学内容讨论,使学生学会理论课程的学习方法,迅速掌握核心内容。
2.数据预处理是数据分析与挖掘的重要内容,辅助以企业案例和具有实际工程背景案例,通过教师的Spark中的不同预处理方法进行演示,培养学生数据分析与数据预处理,对数据进行规范化的能力。
3.数据挖掘的具体方法如关联规则、分类和聚类等,在单元学习结束时设置课程实验,指导学生运用所学的知识解决实际问题,培养学生分析、设计并解决大数据背景下的工程问题的能力。
4.在实验中,引入企业案例或相关数据集,针对实际问题引导学生选择合适方法,提升学生运用基本理论和方法分析问题和解决问题方案提出的能力。
5.采用CAI作为辅助教学工具。
七、学习评量
学习成绩由平时成绩(含作业成绩、上机实验成绩)和期末考试成绩组成。各部分所占比例和评价内容、方法如下:
1. 平时成绩(40%)
(1)作业成绩:10%。主要考核对课堂学习的知识点的复习、理解和掌握程度;以答题数量和正确率为评价标准。
(2)上机实验成绩:30%。
上机实验结果及实验报告。主要进行不同的数据分析和挖掘实验;以每个挖掘算法的实验进行评价,共20分,分4次,每次5分;实验报告共10分,1次。
2. 期末考试成绩(60%)
5
主要考核综合应用基本概念分析和解决问题的能力和程度;书面考试形式,题型以分析和设计为主,按正确性评分。
3. 说明
(1)作业和实验报告有雷同时,所有雷同回答均不得分。
(2)可利用指定“八、教学资源”中指定的MOOC的合格证书+评价作为课程学习成绩,参加其他MOOC并计划代替学习成绩者须在课前向任课教师提出申请,由课程组教师讨论决定。
八、教学资源
1.教材
[1]喻梅,于健.数据分析与数据挖掘.北京:清华大学出版社,2018. 2.参考书目
[1]简祯富,许嘉裕.大数据分析与数据挖掘.北京:清华大学出版社,2015. [2]张良均,王路,苏剑林,等.Python数据分析与挖掘实战.北京:机械工业出版社,2015.
6