数智化转型网szhzxw.cn 数字化转型网专题栏目 数据湖的基本参考架构是什么样的?数据湖的核心能力有哪些?

数据湖的基本参考架构是什么样的?数据湖的核心能力有哪些?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、数据湖的基本参考架构

结合目前开源的数据湖平台和组件,总结数据湖的基本参考架构如下:

二、数据湖最核心的能力包括哪些

总结数据湖最核心的能力包括:

1、数据集成能力(数据接入)

1)接入不同数据源,包括数据库中的表(关系型或者非关系型)、各种格式的文件(csv、json、文档等)、数据流、ETL工具(Kafka、Logstash、DataX等)转换后的数据、应用API获取的数据(如日志等)。数字化转型网www.szhzxw.cn

2)自动生成元数据信息,确保进入数据湖的数据都有元数据。

3)提供统一的接入方式,如统一的API或者接口。

2、数据存储

数据湖存储的数据量巨大且来源多样,数据湖应该支持异构和多样的存储,如HDFS、HBase、Hive等。

3、数据搜索

数据湖中拥有海量的数据,对于用户来说,明确知道数据湖中数据的位置,快速的查找到数据,是一个非常重要的功能。数字化转型网www.szhzxw.cn

4、数据治理

1)自动提取元数据信息,并统一存储。

2)对元数据进标签和分类,建立统一的数据目录。

3)建立数据血缘,梳理上下游的脉络关系,有助于数据问题定位分析、数据变更影响范围评估、数据价值评估。数字化转型网www.szhzxw.cn

4)跟踪数据时间旅行,提供不同版本的数据,便于进行数据回溯和分析。

5、数据质量

1)对于接入的数据质量管控,提供数据字段校验、数据完整性分析等功能;

2)监控数据处理任务,避免未执行完成任务生成不完备数据。

6、安全管控

1)对数据的使用权限进行监管。

2)对敏感数据进行脱敏和加密。

7、自助数据发现

提供一系列数据分析工具,便于用户对数据湖的数据进行自助数据发现,包括:

联合分析数字化转型网www.szhzxw.cn

交互式大数据SQL分析

机器学习

BI报表

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于塞大花;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/56073.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部