您好,欢迎来到九壹网。
搜索
您的当前位置:首页一种基于Spark计算框架的数据获取方法和装置[发明专利]

一种基于Spark计算框架的数据获取方法和装置[发明专利]

来源:九壹网
专利内容由知识产权出版社提供

专利名称:一种基于Spark计算框架的数据获取方法和装置专利类型:发明专利

发明人:吕雁飞,刘欣然,张鸿,蒋旭,马秉楠,惠榛,朱亚南申请号:CN201810296682.3申请日:20180404公开号:CN108536808A公开日:20180914

摘要:本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括:在接收到表对象访问请求之后,获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息;根据计算资源信息和数据分布信息,生成多个Partition;其中,每个Partition对应数据表中的部分数据;通过生成的多个Partition,从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性,通过多个Partition,直接从MPP的存储节点快速获取数据集。进一步地,在计算资源充足的情况下,可以对存储节点的数据表进行进一步的拆分,以达到提高并行度,提升数据导入性能的目的。可以根据MPP集群的数据分布情况,优先从本地存储中获取数据,减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

申请人:国家计算机网络与信息安全管理中心,天津神舟通用数据技术有限公司

地址:100083 北京市朝阳区裕民路甲3号

国籍:CN

代理机构:工业和信息化部电子专利中心

代理人:李勤媛

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务