数据湖是什么?

数字化转型1000问-数字化转型网szhzxw.cn

1、数据湖的定义

数据湖是一个以原始格式存储数据的存储库或系统。数据湖按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

2、数据湖的作用

数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时数据湖还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。

英文翻译:

  1. Definition of data lake

A data lake is a repository or system that stores data in its original format. A data lake stores data as-is without prior structured processing of the data. A data lake can store structured data (such as tables in a relational database), semi-structured data (such as CSV, logs, XML, JSON), unstructured data (such as email, documents, PDF), and binary data (such as graphics, audio, video).

  1. The role of the data lake

Data lakes can make it easier and cheaper to solve the problem of unified storage of different data structures, and data lakes can also provide global data for machine learning. We can understand the data lake as a solution that integrates big data integration, storage, processing, machine learning, and data mining.

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/50252.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部