《大数据分析与挖掘》教学大纲
一、课程基本信息 课程名称 课程编码 学分 适用专业 先修课程 大数据分析与挖掘 Big Data Analysis And Mining SCC320511030 3.0 课内学时 开课院部 52 讲授 40 实验 数据科学与大数据技术 数据科学与大数据技术导论、Python语言与实训 大数据分析与挖掘的主要任务是从大量数据中发现潜在有用的知识和数据模式,是统计学、计算机科学、机器学习等多门学科的交叉学科。本课程是数据科学与大数据技术专业必修课,信息与计算科学专业选修课,将系统介绍大数据分析与数据挖掘的基本概念和经典方法,主要内容包括:数据预处理、线性模型、决策树、聚类分析、核方法等。通过本课程的学习,学生能掌握大数据分析与数据挖掘的基本算法及其原理,具备分析和建立大数据模型的能力,完成基本的数据挖掘任务。 课程简介 (必修) Data mining is a process of discovering potentially useful knowledge and data patterns from a large amount of data. It is a cross discipline which combines statistics, computer science, machine learning and so on. This course is a compulsory course for the major of Data Science and Big Data Technology and the specialty for the major of Information and Computing Science. It will introduce the basic concepts and classical algorithms of data mining. The main contents include: data processing, linear model, extended linear model, decision tree, ensemble learning, data stream learning. Through the learning of this course, students would master the basic algorithms of data mining and the corresponding principles, and can use data mining software to complete the application tasks. 负责人 二、课程目标 序号 代号 1 2 M1 M2 课程目标 目标1:掌握常用的数据挖掘建模方法,能够量化分析自然科学与社会科学中的实际问题,具备建立和分析大数据模型的能力。 目标2:掌握大数据分析的基本方法,建立数据思维和较强的数据分析与处理能力,并能用相关数据OBE 是 是 毕业要求指标点 任务 4.2 3.1 自选 大纲执笔人 审核人 理学院 0 上机 12 课程团队 实践 授课语言 0 数据科学团队 课外学时 中文 52 分析方法处理实际数据集。 3 4 M3 M4 目标3:具备良好的表达和沟通能力,就大数据技术领域的具体问题进行有效的沟通和交流,清楚地阐述专业观点。 目标4:能保障课程正常秩序 支撑课程目标 / M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2 / M1,M2,M3 M1,M2,M3 是 否 课内学时 / 2 2 / 2 2 2 2 / 2 2 6.2 课外学时 / 2 2 / 2 2 2 2 / 2 2 三、课程内容 序号 章节号 1 2 3 4 5 6 7 8 9 10 11 第一章 1.1 1.2 标题 第一章 大数据分析与挖掘概述 1.1 数据分析与挖掘简介 1.2 数据预处理 课程内容/重难点 数据挖掘内涵和基本特征、数据清洗 数据挖掘任务类型 聚焦;抽样;维归约;特征创建;变量变换 教学方式 / 讲授/讨论 讲授 / 讲授 讲授 讲授 上机/实验 / 讲授 讲授 课外环节 / 自学 自学/作业 / 自学/作业 自学/作业 作业 作业 / 自学/作业 自学/作业 第二章 第二章 关联分析 关联规则的定义、关联规则算法、关联评估 2.1 2.2 2.3 2.1 关联分析基本概念 频繁项集;先验原理 2.2 Apriori算法 支持度计数;计算繁杂度;频繁项集的紧凑表示 2.3 案例:超市购物篮分析 超市购物篮分析 上机 朴素贝叶斯分类模型,支持向量机分类模型,逻辑回归,k近邻分类 贝叶斯原理,朴素贝叶斯假设 感知机,多层神经网络 上机1 上机 第三章 第三章 分类分析 3.1 3.2 3.1 贝叶斯分类模型 3.2 感知机模型 12 13 14 15 16 3.3 3.4 3.3 支持向量机分类模型 3.4 k近邻分类 线性SVM; 非线性SVM; 结构风险最小化原理 k近邻算法,参数选取 上机 决策树基本算法;属性测试条件 组合方法的基本原理;bagging; boosting M1,M2,M3 M1,M2,M3 M1,M2 M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2 / M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2,M3 / M1,M2,M3 1 1 2 2 2 讲授 讲授 上机/实验 讲授 讲授 1 1 2 2 2 自学/作业 自学/作业 自学/作业 自学/作业 自学/作业 上机2 上机 3.5 3.6 3.5 决策树分类 3.6 集成学习 3.7 案例:手写17 18 19 20 21 3.7 字识别、垃圾邮件过滤 手写字识别、垃圾邮件过滤 上机 2 2 / 2 2 讲授 上机/实验 / 讲授 讲授 2 2 / 2 2 自学/作业 作业 / 自学/作业 自学/作业 上机3 上机 第四章 第四章 回归分析 线性回归模型,岭回归模型,LASSO模型,非线性回归模型 4.1 4.2 4.1 回归模型简介 线性回归模型;岭回归模型; LASSO模型; 模型改 4.2 非线性回归模型 4.3 案例:财政收入影响因素分析及预测 核学习 22 4.3 案例:财政收入影响因素分析及预测 2 讲授 2 自学/作业 23 24 25 上机4 上机 第五章 5.1 第五章 聚类分析与异常检测 5.1 k均值聚类 上机 相似性度量、k均值聚类、EM算法 k均值聚类算法;二分K均值 2 / 2 上机/实验 / 讲授 2 / 2 作业 / 自学/作业 26 27 28 29 30 31 32 33 5.2 5.3 5.4 5.2 高维数据聚类 高维数据降维 5.3 异常检测 5.4 案例:客户价值分析 第六章 数据流挖掘 6.1 数据流分类 6.2 数据流聚类分析 基于统计的异常检测;基于邻近度的方法;基于聚类的方法 案例:客户价值分析 上机 数据流在线分类算法、数据流在线聚类算法 数据流的概念;数据流分类算法;Regret bound 数据流聚类算法 上机 M1,M2,M3 M1,M2,M3 M1,M2,M3 M1,M2 / M1,M2,M3 M1,M2,M3 M1,M2 2 2 2 2 / 2 2 2 讲授 讲授 讲授 上机/实验 / 讲授 讲授 上机/实验 2 2 2 2 / 2 2 2 自学/作业 自学/作业 自学/作业 作业 / 自学/作业 自学/作业 课程大作业 总评占比 20% 上机5 上机 第六章 6.1 6.2 上机6 上机 四、考核方式 序号 1 考核环节 1.每周布置至少2道题目,平均每次课1道题以上。 平时作业 2.成绩采用百分制,根据作业完成准确性、是否按时上交、是否完成评分。 1.课堂表现。 2 平时表现 2.考勤。 3.能保障课程正常秩序。 1.本课程要求学生或小组合作的形式,采用指定编程语言,完成指定数据集的数据预处理、数据建模、分析和评估3 课程实践报告 任务; 2.根据实践报告质量和学生所完成的工作进行评分。 40% 15% 操作细节 4 上机作业 1. 按要求按时完成上机题目 2. 根据上机作业完成质量、是否按时上交进行评分 考核环节 大致占比 D作业抄袭,未能按时完成,缺交作业 C思考、按时完成,格式比较合理、70%的作业评价为A,A+ 评分等级 25% 五、评分细则 序号 课程目标 1 M1 平时作业 30% B思考、按时完成,步骤比较完整、80%的作业评价为A,A+ A思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+ D不参与课堂互动,不能保障课堂正常秩序 C较少参与课堂互动,不能保障课堂正常秩序 B精神状态良好,问题回答较好,能够保障课堂正常秩序 A积极回答问题,精神状态饱满,能够保障课堂正常秩序 D未完成数据处理和模型建立、分析任务 2 M1 平时表现 20% 3 M1 课程实践报告 50% C数据处理和模型建立、分析时存在一定缺陷 B基本完成数据处理、模型建立、分析和评估任务 A高质量完成数据处理、模型建立、分析和评估任务。 D作业抄袭,未能按时完成,缺交作业 C思考、按时完成,格式比较合理、70%的作业评价为A,A+ B思考、按时完成,步骤比较完整、80%的作业评价为A,A+ A思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+ D不参与课堂互动,不能保障课堂正常秩序 C较少参与课堂互动,不能保障课堂正常秩序 B精神状态良好,问题回答较好,能够保障课堂正常秩序 A积极回答问题,精神状态饱满,能够保障课堂正常秩序 A 作业及时完成,能够完成基本数据分析任务,完成部分选作题,有自己的见解 4 M2 平时作业 10% 5 M2 平时表现 15% 6 M2 上机作业 35% B 作业及时完成,能够完成基本数据分析任务 C 部分完成基本数据分析任务,方法或模型选择存在一定缺陷 D未完成数据处理和模型建立、分析任务 7 M2 课程实践报告 40% C数据处理和模型建立、分析时存在一定缺陷 B基本完成数据处理、模型建立、分析和评估任务 A高质量完成数据处理、模型建立、分析和评估任务 D作业抄袭,未能按时完成,缺交作业 8 M3 平时作业 20% C思考、按时完成,格式比较合理、70%的作业评价为A,A+ B思考、按时完成,步骤比较完整、80%的作业评价为A,A+ A思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+ D不参与课堂互动,不能保障课堂正常秩序 9 M3 平时表现 40% C较少参与课堂互动,不能保障课堂正常秩序 B精神状态良好,问题回答较好,能够保障课堂正常秩序 A积极回答问题,精神状态饱满,能够保障课堂正常秩序 D未完成数据处理和模型建立、分析任务 10 M3 课程实践报告 40% C数据处理和模型建立、分析时存在一定缺陷 B基本完成数据处理、模型建立、分析和评估任务 A高质量完成数据处理、模型建立、分析和评估任务 D不参与课堂互动,不能保障课堂正常秩序 11 M4 平时表现 100% C较少参与课堂互动,不能保障课堂正常秩序 B精神状态良好,问题回答较好,能够保障课堂正常秩序 A积极回答问题,精神状态饱满,能够保障课堂正常秩序 评分等级说明: [A,B,C,D,E]=[90-100,75-,60-74,0-59] 六、教材与参考资料 序号 1 2 教学参考资料明细 图书|Python数据分析与数据挖掘实战, 张良均等著, 机械工业出版社, 2020. 图书|数据挖掘导论, Pang-Ning Tan等著, 人民邮电出版社, 2011.(*主教材) 3 图书|数据挖掘概念与技术, 韩家炜等著, 机械工业出版社, 2012.