数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、数据湖的基本参考架构
结合目前开源的数据湖平台和组件,总结数据湖的基本参考架构如下:

二、数据湖最核心的能力包括哪些
总结数据湖最核心的能力包括:

1、数据集成能力(数据接入)
1)接入不同数据源,包括数据库中的表(关系型或者非关系型)、各种格式的文件(csv、json、文档等)、数据流、ETL工具(Kafka、Logstash、DataX等)转换后的数据、应用API获取的数据(如日志等)。数字化转型网www.szhzxw.cn
2)自动生成元数据信息,确保进入数据湖的数据都有元数据。
3)提供统一的接入方式,如统一的API或者接口。
2、数据存储
数据湖存储的数据量巨大且来源多样,数据湖应该支持异构和多样的存储,如HDFS、HBase、Hive等。
3、数据搜索
数据湖中拥有海量的数据,对于用户来说,明确知道数据湖中数据的位置,快速的查找到数据,是一个非常重要的功能。数字化转型网www.szhzxw.cn
4、数据治理
1)自动提取元数据信息,并统一存储。
2)对元数据进标签和分类,建立统一的数据目录。
3)建立数据血缘,梳理上下游的脉络关系,有助于数据问题定位分析、数据变更影响范围评估、数据价值评估。数字化转型网www.szhzxw.cn
4)跟踪数据时间旅行,提供不同版本的数据,便于进行数据回溯和分析。
5、数据质量
1)对于接入的数据质量管控,提供数据字段校验、数据完整性分析等功能;
2)监控数据处理任务,避免未执行完成任务生成不完备数据。
6、安全管控
1)对数据的使用权限进行监管。
2)对敏感数据进行脱敏和加密。
7、自助数据发现
提供一系列数据分析工具,便于用户对数据湖的数据进行自助数据发现,包括:
联合分析数字化转型网www.szhzxw.cn
交互式大数据SQL分析
机器学习
BI报表
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于塞大花;编辑/翻译:数字化转型网Jack。








