您好,欢迎来到九壹网。
搜索
您的当前位置:首页基于Hadoop的移动用户行为模式挖掘平台设计

基于Hadoop的移动用户行为模式挖掘平台设计

来源:九壹网
・154・ 信息技术 基于Hadoop的移动用户行为模式挖掘平台设计 刘晓庆 (东北电力大学信息工程学院,吉林吉林132012) 摘要:伴随移动社交网络的快速发展,如何为用户提供贴心和个性化的服务是电信运营商密切关注的问题,要实现个性化服务的 核心工作之一就是通过移动用户的消费信息有效发现用户的行为模式,但传统的单机模式下的分析平台已无法有效处理当前的移动大 数据,本文针对传统粗糙集理论属性约简方法进行了并行化改造,提出基于MapReduce的移动数据粗糙集并行约简方法,同时以Hadoop 开源平台为基础,构建了移动用户行为模式分析平台,最后通过实验验证了平台的有效性与可用性。 关键词:用户行为模式;属性约简;Hadoop;MapReduce 1平台背景 表1 随着互联网发展起来的社交网络对^、类社会活动的方式、效率等 麴 蒋 甜属拦辨 笺丝 产生了深远影响,在社交网络基础上形成了移动社交网络(Mobile So— 执行时间,m 约简后属性个数 CDR话单lOG 7 18.013 4 cial Network)。在移动社交网络的发展中,用户的需求也发展到了—个 20G 6 39.035 4 新的阶段,体现为对贿 服务和个性化服务的追求,他们希望在任何时 上网详单 间、任何地点、任何设备上体验个性化服务,因此移动互联网的发展要 储,MapReduce通过编写Map和Reduce两个函数过程实现数据的分 以用户为中心,以提供个性化服务为终极目标 析处理。本文提出的粗糙集并行约简方法执行过程如下: 个性化服务的核心工作之—是如何通过移动用户的消费信息有效 3.1获取原始移动社交数据集,包含n个属性(n=j+lJ ̄-中条件属性j 发现用户的行为模式,进而根据用户个性化的喜好。更好的提供有价值 (j<n)个,决策属性l(1<n)个)。 的服务信息回。本文针对传统粗糙集理论在属性约简时必须将数据全部 3.2采用分布式文件系统HDFS进行列式存储,将完整的数据集进 放入内存,导致在进行移动用户社交大数据时无法有效处理问题,提出 行自动划分处理,这些分解的数据块存放在一组数据节点中。 基于MapReduee的移动数据粗糙集并行约简方法。同时以Hadoop开 33在Map阶段,对每个数据块进行13.个属性的等价关系计算,分 源平台为基础,构建了移动用户行为模式分析平台,最后通过实验验证 别计算n个属性的等价关系组合,共包含 + +…..+ 种等价 关系。 3.4在Reduce阶段,合并不同数据块中计算获得的某个属性局部 本文提出的基于Hadoop的用户行为分析模型框架,主要由5个层 等价关系,获得该属性的完整等价类。 次构成:资源层、存储层、控制层、分析层和展现层。具体功能如下所述: 3.5在Map阶段,基于信息熵公式 )一F-_log J=一∑岛log , 2.1资源层。资源层的对象分为两类,一类是对用户各种移动业务 要性。 访问数据的存储,包括用户位置信息、终端设备类型、访问IP、网址/特 计算同—届性等价类中某 走属性集的重:3.6在Reduce阶段,合并获得每个候选属性集的完整重要度。 征信息等等日。 3.7进行属性约简,根据不同行为分析的目标,获得相应的最优候选 2.2存储层。设计存储层结构主要考虑两个方面:海量设备状态数 集。 据的高效存储和用户行为分析中访问效率问题。 4平台的实验分析 2.2.1采用Hadoop分布式文件系统(HDFS)构建一个高度容错性 本平台的实验环境是选取了5台虚拟机进行搭建,采用Linux 的系统,基于流数据模式访问并能处理超大文件(1T以上),提供高吞吐 u操作系统12.04的64位版本,构建完全Z k d--_ - ̄的Hadoop集群, 量的数据访问。2.22使用列式存储的HBase数据库,所有的待分析用户 Ubunt指定5台虚拟机所对应的域名。每台虚 访问状态数据文件都以HFile文件形式存储在HDFS文件系统上。能 通过内网的—个DNS服务器,1G内存,系统硬盘2G,外接硬盘16G。 够提供高并发读写操作,并且列都可以动态增加,列为空就不存储数 拟机,实验的数据来源是运营商的CDR话单和上网详单,以及相应的字 据,节省存储空间。 例如基站位置、通话类型等),具体CDR话单包括:主叫、被叫、 23控制层。控制层采用MapReduce并行运算模式,将用户行为分 段说明(通话类型、通话位置信息、通话时长、服务类型,通话费用上 析过程划分为多个MapReduce作业,以廉价的X86服务器构建 通话时间、手机号码、上网时间、网址URL、持续时间、流量、上网套餐 Hadoop集群,对每个作业分为Map和Reduce两个阶段,同时构建 网详单包括: Zookeeper负责协制服务,利用Hive的强大统计汇总、点对点查询 类型。4.1属性约简验证(表1) 和大数据分析功能,用HQL语句进行采集信息的各类分析操作。 4l2用户行为模式影响因素分析。将居住地点数据进行规范化处理 24分析层。首先,通过移动数据粗糙集并行约简方法进行移动社 通过与归一化处理后的上网时长信息进行分析 交大数据的预处理,然后利用多元回归分析、贝叶斯网络和判别式法等 后转化为O一55个数字,发现上网时长与某些特定居住地点存在一定的相关性,本分析中几 智能分类算法进行用户行为特征的提取,依据行为特征曲线分析结果, 后,—-—代表学校区域、4 —代表咨询公 经用户行为推理机根据行为分类规则进行自动判断 。同时,通过Sqoop 个有峰值出现的地点分别是2l司区域。 接口将行为分类规则存^、用户行为知识库。 年龄与选择服务类型的关系分析,显示高年龄段人群仅对移动通 25展现层。对移动互联网下用户行为进行分类,对于每—类行为 信的基本服务感兴趣,中青年龄段人群对上网服务和增值服务使用较 分别进行 l速的图形化展现,同时进行各种应用推荐。  3平台关键技术:基于MapReduce的移动数据粗糙集并行约简 多。参考文献 在对移动社交数据进行处理时,将全部的屙l生看做一个完整的集 1]梁鹏,张岩.弄多动数据业务用户行为模式研究叨冲兴通讯科技_2005(4): 合,但这些属性在分析不同的行为目标时,如上网时长的分布规律,用 【 户使用某种移动套餐的可能性等,并不是所有屙陛都是必要的,可以将 2牟乏7.2]陆嘉恒.Hadoop实战 .北京:机械工业出版社,2012. 属性的约简归结为属性的选择问题,即在保持属性集合用户行为分类 [3]张利军,李战怀等.基于位置信息的序列模式挖掘算法田.计算机应用 能力不变的情况下,如何选取最有代表性的属性。因此,以粗糙集理论 [了平台的有效性与可用性。 2平台框架设计 研究20092 ̄2):4-1 1. 为基础,在MapReduce框架下实现粗糙集约简方法的并行化改进。 4]朱晨杰,杨永丽.基于MapReduce的BP神经网络算法研究叨.微型电 在构建基于Hadoop平台移动社交数据属性约简时,它的平台核心 【2012,(28):9--15. 是HDFS和MapReduce,其中HDFS为海量的原始数据提供了列式存 脑应 ̄,作者简介:刘晓庆(1982一),女,吉林省吉林市人,硕士研究生,主要从事大数据处理与时间序列挖掘等方面的研究工作。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务