专利内容由知识产权出版社提供
专利名称:一种基于Spark计算框架的数据获取方法和装置专利类型:发明专利
发明人:吕雁飞,刘欣然,张鸿,蒋旭,马秉楠,惠榛,朱亚南申请号:CN201810296682.3申请日:20180404公开号:CN108536808A公开日:20180914
摘要:本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括:在接收到表对象访问请求之后,获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息;根据计算资源信息和数据分布信息,生成多个Partition;其中,每个Partition对应数据表中的部分数据;通过生成的多个Partition,从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性,通过多个Partition,直接从MPP的存储节点快速获取数据集。进一步地,在计算资源充足的情况下,可以对存储节点的数据表进行进一步的拆分,以达到提高并行度,提升数据导入性能的目的。可以根据MPP集群的数据分布情况,优先从本地存储中获取数据,减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。
申请人:国家计算机网络与信息安全管理中心,天津神舟通用数据技术有限公司
地址:100083 北京市朝阳区裕民路甲3号
国籍:CN
代理机构:工业和信息化部电子专利中心
代理人:李勤媛
更多信息请下载全文后查看