面试官:如何管控数据?

行家益,吾是一哥,昨先天享一篇数仓面试的知识点《掌握这些数仓知识,再也不怕面试官!》,但是面试还欠缺了一片面数据管控的知识,今天补上~

01数据管控背景

数据管控是在做大数据平台包括传统BI都必要做的做事,数据从各个数据源过来,吾们都要进走数据质量的管理,也就是吾们常说的数据治理。那么在数据仓库建设的时候如何进走数据管控呢?

吾经历过的项现在主要采用以下管控形式:数据质量、数据生命周期、数据标准、元数据四方面的管控。

02管控形式

一、数据质量

不管是做数据仓库建设照样做数据分析,相反和实在的数据是数据模型与决策分析的基础。在实际生产环境中,吾们从迥异的编制抽取数据到大数据平台,那么吾们就要挑供一套数据监控机制,对数据质量进走监控。良益的、高质量的数据能够有效降矮编制建设成本。

二、数据标准

保证标准命名、编码、营业注释等内容的唯一性。只有竖立响答的标准,同时添强营业的标准化做事,规范重点营业内容,深化营业管理。并在实时过程中添强现有数据的交互性,撑持同一的营业管理,只用竖立的数据标准,才能推动主数据编制的建设,完善重点数据的同一管理,为后期数据模型十足共享打下坚实的基础。

同时在数据质量监控的同时,吾们会一向完善数据标准,以体面企业内部众变的编制环境,从而形成良性循环。

关于管控流程,概括三个字:查&管。

查,分为测试验证和上线审核。

测试验证:

a). 总量核对,核对上下两步的数据总条数,异国过滤条件的话答该是相反的

b). 众维度统计,复杂的众维度指标拆分成单维度SQL统计,对每个指标别离进走核查。

c). 众外有关统计,拆分成中心外进走核对每一步骤的指标。

d). 明细到指标统计,比如随机找一台车的明细和末了统计的指标进走核对。

e). 新老统计对比,比如有些指标是迁移或者之前营业手工制作,能够开发后的新指标同老指标进走对比。

上线审核:

a). 对查询外的where后面的条件、join有关字段、group by分组字段等重点检查逻辑,和需求理解结相符审核。

b). 根据上面的数仓规范检查数据集命名、数据集字段命名、义务名称进走审核,是否依照数据仓库建设规范中的营业域、维度、原子指标、修饰类型、修饰词、时间周期、派生指标等标准进走命名。

c). 代码注解审核,每一步处理必要有注解该步骤的作用,每个指标也要有注解,where条件等也要增补注解。

d). 主要义务是否开启短信告警,义务启动时间等审核。

e). 义务上线的位置是否相符上线标准,比如上线的数据层级与营业层级等。

管,开发过程中,行家必要遵命一些流程规则,以确保指标的定义,开发的实在性。

a). 需求上线时候必要在知识库中完善所开发需求逻辑表明

b). 复杂需求(比如项现在指标),必要团队起码两人以上评审需求后开发。

c). 挑交上线申请的同事必要备注上需求逻辑表明。

审核上线人员为“轮值”,审核上线人员必要review开发人员的代码,必要和开发人员共同承担代码质量

三、数据生命周期

随着企业营业的添长,越来越众的数据汇入大数据平台,同时在建设数据仓库的时候,吾们还进走了数据分层管理,数据会存在众份共存情况,那么此时吾们就要做数据生命周期管理,对不消须保存的数据,进走冷数据管理。限制数据的生命周期,一方面能够减矮成本、简化管理,同时也为吾们集群腾出了资源,挑高了编制性能,尽能够已足现有营业的高效运走。另外,在做数据生命周期管理的同事要仔细一些风险,比如法规,对于许众互联网、银走、电信、车联网等企业,有关部分会挑出原起数据必须保持众长时间的请求。在制定数据生命周期管理时,肯定要仔细!

能够参考前先天析的网易的技术经验《数仓治理之数据义务重构实践》

四、元数据

元数据就是对一些营业术语、标准等的同肯定义、管理。对各栽数据流接口的同一管理。同时在构建数据模型的时候,经由过程元数据吾们能够进走血缘分析等。

03总结

经由过程上面吾们介绍的管控形式的几个要点,那么在实走过程中是否能够成功呢?也许率不会,由于团队总会有那么几幼我嫌规范太繁琐,不按套路出牌,于是竖立一些标准的基础上,在实走过程中吾们还有竖立一些规章制度,来协助吾们的规划落地,比如和员工绩效挂钩、或者制定一些流程管控、增补上线审核机制等,只有规范和流程相结相符了,才能更益的进走实走管控数据,也只有管控益数据,才能更益的保证数据分析的成功。

【编辑选举】学校跑道简介

EnginePlus朱亚东:跨越数据爆发式添长到智能处理之间的鸿沟 企业数据中心正在消逝吗? 阿里云RDS数据库壮大升级,实现“自动驾驶”能力 滴滴下架!数据坦然就是国家坦然 数据仓库有坑怎么办,如何从0到1来填坑

 


posted @ 21-07-06 02:25  作者:admin  阅读量: