of telecom big data based on Hadoop
作者:汪保友[1];钱晶[1];袁时金[2]
作者机构:[1]中国联合网络通信有限公司上海市分公司,上海200050 [2]同济大学软件学院,上海201804
出版物刊名:电信科学 页码:135-142页 年卷期:2017年 第1期
主题词:大数据 ETL Hadoop 调度流程 混搭架构
摘要:ETL是数据仓库实施过程中一个非常重要的步骤,设计一个能够对大数据进行有效处理的ETL流程以提高运营平台的采集效率,具有重要的实际意义。首先简单介绍某运营商大数据平台采集的主要数据内容。随后,为提升海量数据采集效率,提出了Hadoop与Oracle混搭架构解决方案。继而,提出一种动态触发式ETL调度流程与算法,与定时启动的ETL流程调度方式相比,可有效缩短部分流程的超长等待时间;有效避免资源抢占拥堵现象。最后,根据Hadoop和Oracle的系统运行日志,比较分析了两个平台的采集效率与数据量之间的关系。实践表明,混搭架构的大数据平台优势互补,可有效提升数据采集时效性,获得比较好的应用效果。
因篇幅问题不能全部显示,请点此查看更多更全内容