企业数据治理的重点和难点

2024-05-09 04:10

1. 企业数据治理的重点和难点

重点的话,从技术实施角度看,主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

企业数据治理的重点和难点

2. 面对数据治理的挑战及难点,如何找到最佳解决办法?

一、建立数据治理计划时,您将遇到几个挑战: 
  
  ·   数据治理是更大的 IT治理策略的一部分。  数据与IT部门需要相互配合才能成功。
  
  ·   进行任何类型的优化都很难,让员工关心数据治理更是难上加难。  需要激励和动力来让你的员工遵循新数据治理计划。
  
  ·   数据治理工作需要灵活地适应团队需求,并且对用户来说必须简单易用。  如果数据治理阻碍了政正常业务工作,则不会促进业务目标。
  
 
  
  
  二、面对这些挑战,您应该如何实施数据治理方案? 
  
 以下是8点数据治理最佳实践方法,它们将帮助您进行数据治理。
  
  1.   为您的数据设置格式标准, 并在后期处理和将数据提取到大数据平台中时使用技术来实施这些标准。您将要从许多不同的来源中提取数据,因此您应该对大数据系统中的数据进行规范化。
  
  2.   非托管数据也是重要数据! 文件,文件夹和共享中的数据是您最有价值的数据中的一部分,而且通常比托管数据具有更大的风险。确保您的数据治理策略涵盖非结构化数据。
  
 3. 尽早制定 业务目标 以进行数据治理,并分配一名首席数据官(CDO)。使CDO负责管理和实现数据治理目标。
  
  4.   把事情简单化! 数据治理不是企业大多数人的主要工作。最大限度地减少对个人贡献者和团队的影响。
  
  5.   为数据治理团队的成员建立不同的角色。 数据所有者是关键,因为它们与创建和管理的数据最接近。您可以分配数据管理人员与数据所有者合作,以进行指导并促进沟通。您的数据治理团队应具有跨职能并有权推动您的数据治理计划。
  
  6.   对所有数据进行分类和标记。 为元数据建立标准,以促进您的业务目标并允许重复使用数据。
  
  7.   用几种不同的方式衡量您的进度。 您可以收集的指标越多越好。数据治理的一些关键指标可能是您要保存多少陈旧数据,已分配数据所有者的文件夹数量以及所创建的敏感数据数量。
  
  8.   尽可能自动化。  自动化工作流程,批准流程, 数据请求,权限请求以及您可以执行的其他所有操作,以使数据治理计划能够高效运转。
  
 
  
  
  三、数据治理工具推荐--睿治数据治理工具 
  
 面对以上8点数据治理最佳实践方法,我为您推荐一款好用的数据治理工具配合实施数据治理方案,不仅可以保证您的数据治理项目按计划实施,也可以将每一个过程都以实时可视化的方式展示给您。以下为数据治理工具推荐:
  
 睿治数据治理平台融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,打通数据治理各个环节,十大产品模块可独立或任意组合使用,快速满足政府、企业各类不同的数据治理场景。
  
 
  
  
  四、睿治数据治理工具实施案例 
  
  山东某能源集团大数据资产平台 
  
  建设内容: 
  
 建设集团 数据治理体系 ,从根本解决问题,掌握数据来龙去脉,发现数据质量原因从源头提升数据质量;实现数据赋能对人财物产供销环数据集市建设,全面实现业务人员自助取数分析;建设集团数据应用商店实现数字化运营,实现数据市场化管理,通过智能化、自动化减少运营成本,降低安全风险,提升工作效率,增加企业市场竞争力。
  
  项目价值: 
  
 基于数据治理体系建立集团大数据资产平台,运用大数据技术实现数据采集、清洗、分析建模的设计,形成集团高质量数据资产,通过数据资产目录对全集团发布,并用业务元数据解释数据含义,便于业务人员定位自己所需数据,与此同时,业务人员可以对自己所需数据提出申请,审批通过后,可直接基于治理数据利用敏捷分析工具实现自助探索分析,真正实现数据赋能,保障日常生产经营管理。
  
  免费试用数据治理工具

3. 数据治理的介绍

从技术实施角度看,数据治理主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

数据治理的介绍

4. 数据治理8种方法

 顾名思义,顶层设计法就是先做一个数据治理顶层设计的规划,然后按照规划执行即可。
   做过咨询的彭友都知道,顶层设计、战略咨询都会根据战略目标拆解KPI,然后设立对应的支撑项目,并且根据优先级别进行排序,最后形成一个执行的路径。
   今年做什么,明年做什么,先做啥,后做啥,都规划的清清楚楚明明白白。
   之后就按图索骥就行。大致的逻辑就像下图一样:
                                           这样的好处很明显,先有面,再有线,最后是各个点状的项目,一点点的落实,效果自然没的说。
   但是这样的方案是非常非常奢侈的,因为这种方案见效慢,对组织的要求非常非常高。耐得住性子的组织很少,通常都要快速见效。
   基本上也只有一些政府单位和极少数的企业使用这种方式获得了数据治理的成功。
   02****技术推动法****   有敏感的朋友已经察觉出来了,这里叫“技术推动法”,而不是技术引领啥的。
   其实这种方法是绝大多数企业采用的数据治理方法。要说原因么,其实很简单,因为数据治理项目大多是在信息部门立项和实施的。
   既然是技术部门的事儿,那当然是技术部门推动了。讲真,我见过太多类似的事情,很少有效果很好的。
   《华为数据之道》里说要“业务主导”,话是真没错,但几乎没有做到的。原因很简单,屁股决定脑袋。业务负责人的主责主业是搞业务,根本不会野不可能要主动做数据治理的事情。
   技术驱动的套路没啥说的,就是针对数据问题,从技术层面进行解决。套路就是信息系统建设的逻辑,立个项,做调研,各种概要设计、详细设计,各种开发、集成、测试、部署,然后验收。
                                            效果么,一般吧。因为大多是问题导向,频繁“打补丁”式的建设。到最后往往就是各种爆炸,报表爆炸,指标爆炸,数据问题爆炸。 
   然后开始上指标系统、数据质量系统,一个补丁贴一个补丁,到最后谁都不敢动了。
   归根结底,就是因为数据的问题是一个系统性的,技术层面的原因只是其中之一而已。造成这种现象的原因就是业务参与度不够。
   在企业,谁挣钱,谁的话语权就大。业务自然是利润中心,而技术一般都是成本中心。纯让技术去推动数据治理,就像是让儿子督促爸爸戒烟一样不靠谱。
   03****应用牵引法****
   如果说技术推动是小孩推车,那么应用牵引则是壮牛拉车得心应手啊。有应用在前面牵引,后面的各种事情就显得非常自然。
   很多企业建数据体系都喜欢先弄一个大屏不是没有道理的。因为没有“用”的东西是没有价值的。
   大屏虽然用户比较单一,实用价值比较低,但毕竟还是有使用场景的,比单纯没有使用场景的纯技术开发建设强的不是一星半点。
                                           以数据应用为牵引,反向要求各链路的数据高质量供给,促进数据治理体系的建设,也是一个很好的选择。
   但是这种方式做数据治理,始终还是会陷入到片面、局部胜利的结果。有应用的地方,数据质量就能得到治理,没有应用的数据质量就没人管了。
   04****标准先行法****
   讲真,标准现行法的真实案例我只遇到过极少数的几个
   甲方在建业务系统的时候,把数据标准和业务系统绑定起来。所以他们在做信息化建设的时候,就已经把所有的数据标准都已经建立好了。
   我过去的时候,发现数据治理真的就这么简单,完完全全就是一个纯技术活儿,不用考虑人的因素。
   所有表都是按照统一的数据模型建设的,所有字段中的键值都在最新发布的数据字典里,甚至为某个“主数据”单独建了一套管理系统。
   我过去就是按照标书里的要求,建库建表,开发ETL,把数据收上来,然后整个规则引擎,按照配置结果,自动计算数据质量,定期出数据质量报告。
                                           其实为什么有那么多的数据质量问题?很简单,没有标准。没有标准就没有对错,自然就会乱到一塌糊涂!
   标准有了,就能确定什么是对的,什么是错的。后面的执行、监测和控制就有了依据,数据质量才有保障。
   05 监管驱动法 
   这个好理解,就是 强监管 。
   强监管通常是上级单位发政策,下级单位执行。而且做不好,还会有惩罚。
   银行、保险等强监管的行业就是跟着政策走的。不好好做数据治理,不按照EAST、1104的要求报送数据,罚单马上就来。
   不要想着随便糊弄,有本事就造全套的假数据,假的跟真的一样的那种,表间勾稽关系无误,各个维度都找不到破绽的那种。
   当然了,在企业内部其实也可以执行这种强监管的模式,但这需要“ 特权 ”。这个前提通常很难达到。
   有种取巧的方法,就是 贯标 。比如现在国家在推的DCMM贯标。
   贯标有一个特别的好处,就是把“贯标评级”列到组织年度目标中,这样就能在企业内部形成一个巨大的“ 势能 ”,形成强监管的态势。
   当我们把“ DCMM贯标 ”这根大棒挥舞起来, 自然比某个部门或者某几个部门推动数据治理强太多了。
   我们给某企业做DCMM贯标的时候,发现技术部门早就制定并颁发了数据安全的制度、流程。但是跟大多数企业一样,发完之后就成一纸空文了。业务觉得安全管控太费事了,压根就不执行。
   现在不一样了,技术部门借着“贯标”的理由,要求业务贯彻执行之前发布的制度和流程。业务虽然不情不愿,但是贯标是企业级目标,大家不得不做,也就 半推半就的推行起来 了。
                                           其实说到底,监管驱动法,就是在借势,借上级政策要求的势,借国家标准的势。用大势推动原本推不动的部门,疏通原本阻力大的流程。
   06****质量控制法****
   质量控制法其实是没有办法,也算是数据管理早期的雏形。因为说起来,数据管理理论体系往前追溯,其实是来 自于质量管理体系 。
   ISO9000(质量管理标准体系)、TQM(全面质量管理体系)、CMMI(能力成熟度集成模型,不只是软件哦!),都属于通用管理体系。
   ISO9000后发展出ISO8000(数据质量管理标准体系),TQM延展出TDQM(全面数据质量管理体系)。而CMMI协会也在2014年推出了DMM(企业数据管理能力成熟度模型)。这是数据领域质量管理体系。
   中国则参考CMMI等一众数据管理体系,在2018年正式发布数据管理成熟度评估模型(DCMM)国家标准,这是后话了。
   与其他行业情况一样,质量是绕不过去的关。不管是做业务的,还是搞技术的,相信各位彭友没少 为数据质量的问题挠头 。质量有问题,数据就没法用,甚至会影响错误决策。
   于是,迫于各种数据质量问题,企业内外部才认真对待,逐步解决数据质量问题。
                                           数据质量管控很明显,是问题导向。但是也不能头疼医头脚疼医脚,还得有个方法论。
   一般来说得有一个具体的 需求 ,包括数据质量管控目标、评估标准、判定规则等等。
   然后再以阶段性的目标和需求出发,从 事前防范 、 事中监控 、 事后核查 三方面进行质量管控,对各类数据问题予以解决。
   在解决的时候,一般会立一个数据质量改进的 专项 ,从技术、流程、制度、机制等层面进行 改进 ,定期开展 评估 ,对数据质量问题及解决办法建立 知识库 ,便于之后遇到类似问题能快速定位和解决。
   在这个过程中,以数据质量问题为 牵引 ,综合使用元数据、主数据、数据标准、制度规范等各类 手段 , “建”以致用 ,自然就不会出现用不起来的情况了。
   07****利益驱动法****
   利益驱动法其实也很有意思。这是我偷偷观察并总结的招,而且这招貌似特别好用。
   其实说白了,也没啥,就是一招:以 利益共享 为根本,以 “成就” 为导向,建立一个符合 部分核心人员****利益 的目标,然后推一下就行了。
   具体的操作手法有很多,比如成功案例法、合作致胜法、评奖法、出书法、会议法等,还有互联网企业保命大法“开源法”。
                                           08****项目建设法****
   这个很容易理解,就是弄个数据治理项目,慢慢建设。
   其实数据治理这件事情开展到现在,也已经形成了一整套非常完善的流程了,相关产品能力也已经非常全面了。
   我之前参与的项目,基本上覆盖了数据全流程,什么数据咨询、数据采集、共享交换、数仓、数据标准、元数据、主数据、数据质量、数据可视化、数据分析等等。
   目前效果比较好的,是咨询和实施结合起来做。
   做个咨询,对数据现状进行盘点,全面掌握企业未来的战略和目前的现状,然后根据数据管理体系,做出差距分析,拟定具体执行的工作任务,根据时间进度安排,拆解并规划项目。
                                           然后在实施项目中,先穿透一个场景,再慢慢从纵深和横向两个层面不断扩大战果,建元数据、主数据、指标体系、数据质量管理体系等等,不断夯实数据基建,为前端数据应用提供高质量数据供给。

5. 数据治理的主动数据治理优势、应当避免的问题,我们应该怎样面对数据治理以及如何做好数据治理?

主动数据的优势:是可在源头获得主数据,销售和营销均受益,财务上也受益。数据的清洁性、精确性、时效性以及一致性应当处于最高级别。
主动数据治理避免出现的问题:已发展到主动数据治理的组织报告了关于关系管理、历史记录、工作流程以及安全性的一些常见教训。

数据治理的主动数据治理优势、应当避免的问题,我们应该怎样面对数据治理以及如何做好数据治理?

6. 数据治理的数据治理成功的关键——元数据管理

独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。元数据管理成为一项重要功能,让 IT 部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。因此,良好的元数据管理工具在全局数据治理中起到了核心作用。 Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。 正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。例如,当业务用户要求其在 IT 部门的搭档在报告或分析中显示“净收入”,就无需再提问“哪种净收入——财务、销售还是市场营销?”除提供其他优势外,良好的元数据管理还可通过免除此类重要问题,促进数据治理:· 这个业务术语的含义是什么?· 在(几个相似的)业务术语中应当使用哪一个?· 该术语的来源是什么?· 该数据从数据源转移到目标时是如何进行转换的?· 由谁负责该术语的定义、记录和管理?· 谁修改过该术语?如何及何时进行修改?· 哪些政策和规则适用于该术语?(示例包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策)· 修改环境中的某一特定数据对象会对其他数据对象产生哪些影响?· 在不对可能使用相同数据对象的其他报告和分析造成影响的前提下,需要多长时间来实施环境变更? 一系列公司方案推动了数据治理的进展,也由此带动了元数据管理。这些方案包括:· 通用业务词汇表(简单的数据管理)。这种“小规模试水”方法着重于某一特定问题或业务部门的通用业务词汇表。· 全面数据治理(或数据管理策略)。这是一种更近似由上至下的方式,通常用于涉及企业内一系列业务部门的较大规模计划,并以按多个阶段(如果不是更长时间)进行管理的计划中的多个商机为目标。· 合规。此类方案的推动因素是为遵守国际、国家、当地或行业法规的需求。合规——通常由一个治理、风险与合规性(GRC)职能部门进行管理,显然与数据治理唇齿相依。在发现、分析和记录企业的多项内部数据治理要求的同时,还必须与适用外部法规的相关特定要求进行统筹协调。其中部分示例包括:· 银行业:Basel II、Basel III、多德弗兰克法案(Dodd Frank)、洗钱法案· 保险业:偿付能力监管标准II(Solvency II )· 医疗保健:HITECH Act、HIPAA· 一般金融服务:萨班斯—奥克斯利法案· 元数据管理。这是更上一层楼的做法,将元数据管理和数据治理作为“最佳实践”与各个新的业务方案挂钩。该方案对业务案例和项目范围进行定义。在多家未能成功实施较大型数据治理方案的公司中,这一方法则取得了成功。 几乎所有企业都面临着管理数据量、速度和种类的挑战。Hadoop/MapReduce 技术在复杂数据分析能力以及按相对低廉的成本实现最大数据扩展性方面提供了一些有趣的优势。Hadoop 在不久的将来取代关系性DBMS的可能性不大,这两项技术更有可能并存,因为它们各有独到之处。虽然用于管理和分析数据的技术可能不同,元数据管理和数据治理的目标应始终保持不变:为支持良好的业务决策提供可信、及时且相关的信息。不存在所谓的“大数据治理”或“大数据元数据管理”——相反,这是一个将全局企业数据治理和元数据管理活动加以扩展来包容全新数据类型和数据源的问题。Hadoop带来的挑战之一就是元数据管理。如果没有良好的元数据管理和数据治理,Hadoop将会缺乏透明度、可审计性以及数据的标准化与重复利用能力。企业仍将需要对数据相关关键信息的可见性,例如其来源、质量和所有权,否则就必须承受Hadoop变成环境内的又一个数据孤岛的风险。在该领域涌现的 HCatalog 和Hive /HiveQL等新技术将使得从非结构化和半结构化数据中收集元数据变得更加简易,从而实现Hadoop上的数据沿袭。这些功能对于将Hadoop集成入总体数据集成框架,以防止大数据在企业中遭到孤立隔绝,可如同任何其他数据源一样进行治理至关重要。 Informatica可提供功能齐全而又稳健可靠的工具,具备交付可信、安全的数据和启动成功的元数据管理方案所需的全部精确功能。Metadata Manager & BusinessGlossary可提供独一无二的多项优势,让IT经理能够尽量降低在实施变更时对关键业务数据造成损害的业务风险。InformaticaMetadata Manager & Business Glossary是 InformaticaPowerCenter Standard Edition的关键组件之一。它可提供为数据治理方案奠定基础所需的核心元数据管理工具。Metadata Manager & Business Glossary是一项单个产品,配备一个共享的元数据信息库。它具备两个用户界面,供两类截然不同的用户使用:· MetadataManager 可让 IT 人员处理技术元数据。· Business Glossary 可让业务和 IT 管理员协同管理业务元数据。ITSS WG1发布的白皮书表明数据治理模型包括三个框架:范围,促成因素和执行及评估。他们每个方面都包含许多组件来进行展示和描述它们是如何工作的。该框架显示数据治理内部的逻辑关系。范围展示了我们应该关注什么,促成因素展示了数据治理的推动因素,执行和评估展示了如何实现治理的方法。该DG模型可以通过三个框架帮助我们理解数据治理。数据治理的范围包括四个层次的内容。首先,应该 有一个治理要素负责管理其它管理要素,保证治理与管理的一致性。其次,下面的三个层次分别列示了需要治理的数据管理要素,其中价值创造层列示了通过数据治理所创造的价值服务。价值保证层描述了一个组织治理数据时重要保证服务。基础数据服务层描述了一个数据治理的基础数据服务。

7. 数据治理的什么是数据治理

信息系统建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数 据资产形成的必要条件。虽然以规范的方式来管理数据资产的理念已经被广泛接受和认可,但是光有理念是不够的,还需要组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。以企业财务管理为例,会计负责管理企业的金融资产,遵守相关制度和规定,同时接受审计员的监督;审计员负责监管金融资产的管理活动。数据治理扮演的角色与审计员类似,其作用就是确保企业的数据资产得到正确有效的管理。由于切入视角和侧重点不同,业界给出的数据治理定义已经不下几十种,到目前为止还未形成一个统一标准的定义。ITSS WG1认为数据治理包含以下几方面内容(1)确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现;(2)确保有效助力业务的决策机制和方向;(3)确保绩效和合规进行监督。数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理的全过程数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过一个类似于监督委员会或项目小组的虚拟组织对企业的信息化建设进行全方位的监管,这一组织的基础是企业高层的授权和业务部门与IT部门的建设性合作。从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管(监管就是我们在执行层面对信息系统的负反馈),而监管的职能主要通过以下五个方面的执行力来保证——发现、监督、控制、沟通、整合

数据治理的什么是数据治理

8. 如何实现成功的数据治理?

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。


元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。