您好,欢迎来到九壹网。
搜索
您的当前位置:首页一种基于数据血缘分析的数据治理方法研究与应用

一种基于数据血缘分析的数据治理方法研究与应用

来源:九壹网
一种基于数据血缘分析的数据治理方法

研究与应用

【摘要】:在数据中台的建设过程中,作为数据治理的重要手段,引入了数据血缘可视化分析的思想,针对数据表级、字段级等不同级别下的数据实现,介绍了数据血缘解析、数据血缘可视化两个部分的技术架构和解决方案,以及在电力交易数据管理中的应用,从而提高对数据加工和处理过程的监控和管理水平。

【关键词】:数据血缘;数据中台;数据治理 1 研究背景

随着大数据、云平台等技术的发展,很多企业开启了数字化、智能化转型的战略,采用了数据中台的建设思想,将传统的的信息孤岛进行整合,建立企业的数据资产体系,提供数据产品和数据服务的能力。然而,在实施的过程中,在数据治理方面会面临非常大的困难和挑战,具体如下 :

(1) 数据流向及关联关系展现 :数据中台的架构通常采用数据分层建模的体系,会按照数据仓库的建模规范对业务数据进行分层建模,从下而上依次是贴源层(ODS)、明细层(DWD)、汇总层(DWS)、应用层模型(ADS),各层之间相互,又相互关联,上层的数据都由下一层的数据加工获取,而原始数据位于数仓的最底层,离应用层数据还有多层的数据加工。因此不同层级之前的数据库表存在着错综复杂的数据流向关系,随着项目规模的扩大,数据管理者无法从全局角度清晰地查看整体系统的数据流向及关联关系。

(2) 数据质量的可追溯性:在进行数据处理的过程中,往往会出现对一些数据质量问题,然而数据处理过程环节多,实现形式多样,依赖关系复杂,数据开发和运维人员很难准确记忆数据的来龙去脉,很难及时有效地定位问题的位置,同样当某个数据处理环节出现问题时,也难以分析影响的范围。

[1]

(3) 面向非结构化文件数据内容的血缘分析 :随着大数据技术的发展和普及,相比传统的数据仓库体系,数据来源和数据产品呈现多样化特点,例如word、PDF、excel、E文件等。因此,需要研究对非结构文件的数据血缘分析能力,使之能够支持从数据产生到数据应用的全链路的跟踪和监控,并且能够提供良好的交互模式。

为了解决上述问题,本文结合数据中台架构技术,研发适用于大数据场景的数据血缘分析方案,构建可视化的数据血缘分析平台。

2 功能结构

数据血缘分析功能结构如图所示,分为数据采集、数据血缘解析、数据血缘展示三个层次部分。

2.1 数据采集

数据采集负责对原始数据的收集,可以通过如下五种来源。

(1) kettle数据抽取:指不同系统、层级之间的数据同步抽取功能,通常用于将一个平台系统的数据迁移到 数据中台的场景。

(2) HQL/SQL数据采集 :指数据统计分析或处理过程中,通过HQL/SQL脚本的方式实现数据的转换、计算、存储等。

(3) 非结构文件数据采集 :指对非结构化文件及数据内容的采集和存储,通过对文件内容的解析提取,建立文件与数据内容的关联关系,转换为结构化的信息存储。

(4) 任务执行日志采集 :基于任务的自动调度,自动生成任务的执行记录信息,对任务的执行记录进行汇集。

(5) 自定义数据流程采集 :基于自定义的数据开发工具,通过拖拽式的交互方式,将数据表和数据处理过程按照业务需求进行组合分析,高效地实现数据的开发和存储应用。

2.2 数据血缘解析

数据血缘解析负责将采集后的数据进行关系识别,转换成血缘数据进行存储,具体解析的粒度包含以下两方面。

(1)任务级血缘解析 :用于展现任务处理的数据加工链路场景,使得用户可以从更高的层次看到某个对象的数据加工流程链路、任务的执行时间、所在的服务器、任务的执行成功情况等。

(2)数据级血缘解析:包含数据表级血缘解析、字段级血缘解析、非结构化文件数据解析。

1)数据表级血缘解析 :用于关系型数据的主题表之间的数据链路关系,一般用于反映不同层级之间的对象关系场景。

2)字段级血缘解析 :指元数据的血缘,相比对象级血缘解析粒度更细致,主要包含主题表的字段、属性、文件的属性之间的数据来源关系。

3)非结构化文件数据解析 :用于关系型数据的主题表、非关系型数据文件对象等之间的数据链路关系。

2.3 数据血缘展现

数据血缘展现,指通过大数据可视化图表的方式将解析后的血缘数据图形化地呈现出来,具体包含展现任务级、数据级数据,此外,支持用户的交互操作,能够点击血缘图中的数据对象和节点查询相关的详细信息。

(1)绘制任务级数据处理过程监视

绘制各层级的数据处理过程可视化展示界面,直观呈现数据处理过程及运行状态,为数据运维人员提供数据全链路监控管理界面。

(2)绘制数据级数据依赖关系图

1)从数据节点模型表中查询所有数据节点信息,按照数据所有者、存储位置、类型的层级组织成树形视图,在左侧展示。

[2]

2)在数据节点视图上选中某个数据节点后,在右侧绘图区域绘制该节点的数据处理过程图。

3)从数据级数据依赖关系图上,选中某个数据表类型的数据节点后,可以查看其字段级依赖关系图。

4 应用与实践

基于上述技术架构方案,研发了一套面向大数据场景的数据血缘分析功能,并在电力交易数据管理系统 建设项目中顺利实施。

系统可以采用图形化的方式展示数据处理全过程的运行状态和数据质量,对数据处理全链路进行监控,并在出现问题时进行数据跟踪分析,定位问题根源。通过应用此种方法,可帮助数据运维人员有效提升数据管理效率,及时发现并解决问题。

(1)利用任务级数据处理过程监控图监视数据处理任务的执行情况。 1)根据数据处理任务图标上的标志查看任务执行的状态。查看任务的处理逻辑、任务的调度器相关信息。

2)当发现异常时,可在发生异常的数据处理任务图标上查看详细日志,分析出现的具体问题并进行处理。

3)对于出现问题的数据处理任务,可根据数据级依赖关系模型,调出数据级数据依赖关系图,分析数据处理任务异常对数据的影响范围。

(2)利用数据级数据依赖关系图进行数据溯源分析

1)根据数据节点图标上的数据质量标志了解数据的质量情况。

2)对数据质量可疑的数据节点,可以直接查看其中的数据内容以及上一级的数据内容,查看经过的数据处理节点的处理逻辑,对其中的字段存在问题时,可以调出字段级数据依赖关系图,分析数据出现问题的根源,对问题进行定位。

可定位至某个结构化数据源,也可以定位至某个非结构化数据源,以及中间的任务处理节点。

作者简介:钟瑞艳 女 1982.08 山东济南 积成电子股份有限公司 250100 中级工程师 电力技术

参考文献

[1] 叶天琦,沈春锋.数据血缘可视化分析平台研究与应用[J].技术热点,2020(11):17-20.

[2] 李旭风 , 罗强 . 面向数据字段的血缘关系分析 [J]. 中国金融电脑 ,2016 年 07 期.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务