数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

现代企业拥有大量多样的数据,他们希望以尽可能多的方式利用这些数据,包括用于分析。数据湖可以作为多个数据驱动项目的单一存储库。数字化转型网www.szhzxw.cn
一、认识数据湖
一个数据湖是一个原始的,未经加工的企业数据集中存储库。数据湖可以包含数百 TB 甚至 PB,存储来自运营源(包括数据库和 SaaS 平台)的副本数据。他们向任何授权的利益相关者提供未经编辑和未汇总的数据。由于其潜在的巨大(且不断增长)的规模以及对全球可访问性的需求,它们通常在基于云的分布式存储中实施。数字化转型网www.szhzxw.cn

虽然“淹没在数据中”这个说法可能很流行,但数据湖更多地是为了获取洞察力。
数据如何进入数据湖?利益相关者(可能是业务经理或数据分析专业人员)首先确定重要或有趣的数据源。然后,他们将数据从这些源复制到数据湖,几乎没有任何结构、组织或格式转换。复制原始数据允许企业简化数据摄取过程,同时为数据分析或机器学习等用途创建集成的真实来源。
存储在湖中的数据可以是任何东西,从完全非结构化的数据(如文本文档或图像)到半结构化的数据(如分层 Web 内容),再到关系数据库中结构严格的行和列。这种灵活性意味着企业可以上传从原始数据到完全聚合的分析结果的任何内容。数字化转型网www.szhzxw.cn
重要的一点是,数据湖提供了一个单一的地方来保存和访问有价值的企业数据。如果没有一个好的数据湖,企业就会增加从数据中受益的利益相关者所需的努力门槛。
现在就让 Stitch 提高您的数据灵活性和可访问性不可知的、可扩展的数据湖架构数据湖架构满足了对海量、快速、安全和可访问的存储的需求。该架构的核心是一个专为持久性(保护数据免遭损坏或丢失并保证持续正常运行时间)和可扩展性(允许任意更改的海量数据)而设计的存储层。
该存储层必须与数据类型和结构无关,能够将任何类型的对象保存在单个存储库中。这意味着数据湖架构独立于数据模型,因此可以在使用数据而不是存储数据时应用不同的模式。
数据湖架构的一个关键组成部分是将存储与计算分离。数据湖是可用的最高度抽象的存储库,它们的架构要求纯粹涉及存储空间的配置和访问。处理和分析层建立在顶部。数字化转型网www.szhzxw.cn
云平台具有固有的可扩展性和高度模块化的服务,是数据湖的最佳主机。Amazon S3等存储服务的设计具有构成良好数据湖的特征,具有抽象、持久、灵活且与数据无关的架构。
二、数据湖的6大特征
一个数据湖是一个集中的存储库,可以让您将所有结构化和非结构化数据的存储在任何规模。它以原始形式保存大量原始数据,直到企业确定其用途。数据湖的基础是一个存储系统,它可以容纳整个组织的所有数据,从供应商质量信息到客户交易,再到实时产品性能数据。数据湖提供了存储原始数据所需的灵活性和一个公共池,用于组合多个点和塑造数据,以提供有用的洞察力,可以定制以满足客户的需求和要求。
1. 保真度
数据湖按原样存储在业务系统中的数据。数据湖存储原始数据,其格式、架构和内容无法修改。它按原样存储您的业务数据。存储的数据可以包括任何格式和任何类型的数据。数字化转型网www.szhzxw.cn
2. 灵活性
数据湖采用读取模式。IT更适合创新型企业和业务变化和成长迅速的企业。
3. 可管理性
数据湖提供全面的数据管理功能。数据湖至少存储两种类型的数据:原始数据和处理后的数据。存储的数据不断积累和演变。这需要强大的数据管理能力,包括数据源、数据连接、数据格式和数据模式。数据模式包括数据库和相关的表、列和行。数据湖为企业或组织的数据提供集中存储。这需要权限管理能力。
4. 可追溯性
数据湖存储组织的完整数据,并在其整个生命周期内管理存储的数据,从数据定义、访问和存储到处理、分析和应用程序。一个健壮的数据湖将数据生产过程和数据流向完整再现,确保每条数据记录在访问、存储、处理和消费过程中都是可追溯的。数字化转型网www.szhzxw.cn
5. 丰富的计算引擎
数据湖架构支持多种计算引擎,包括批处理、流计算、交互式分析和机器学习引擎。批处理引擎用于数据加载、转换和处理。流计算引擎用于实时计算。交互式分析引擎用于探索性分析。大数据与人工智能(AI)的结合催生了多种机器学习和深度学习算法。
6. 安全
身份验证、记帐、授权和数据保护是数据湖安全的一些重要功能。
三、重要的数据湖特征
除了核心架构之外,数据湖还必须包括一些关键特性:
用于上传、访问和移动数据的各种接口、API 和端点。数字化转型网www.szhzxw.cn
这些很重要,因为它们支持数据湖极端多样的可能用例。
复杂的访问控制机制。
数据所有者必须能够设置权限,以确保数据在需要的时间和地点保持安全和私密。访问控制、加密和网络安全功能对于数据治理至关重要。数字化转型网www.szhzxw.cn
搜索和编目功能。
如果没有用于组织和定位大量不同数据的通用方法,数据湖就无法最大程度地可用和有用。这些功能可能包括优化的键值存储、元数据、标记或用于收集和分类所有对象子集的工具。
支持构建或连接到处理和分析层。
分析师、数据科学家、机器学习工程师和决策者都从集中的、完全可用的数据中获得最大利益,因此湖必须支持他们的各种处理、转换、聚合和分析需求。数字化转型网www.szhzxw.cn
准备好构建自己的数据湖了吗?
四、数据湖与数据仓库:数据湖不是什么
许多企业已经在使用另一种集中式存储库:数据仓库。他们可能想知道他们是否需要一个数据湖,或者实施一个数据湖是否会取代现有的分析数据存储。但是数据仓库和数据湖是不同类型的存储库:它们具有不同的功能并用于不同的目的,尽管它们可以一起使用。数字化转型网www.szhzxw.cn
| 特征 | 数据仓库 | 数据湖 |
| 数据类型 | 在集成之前处理数据 | 数据以其原始和非结构化形式集成 |
| 用例 | 数据具有预先确定的用例 | 数据没有预先确定的用例 |
| 用户 | 企业用户 | 数据科学家 |
| 数据质量 | 数据经过整理并遵守数据治理实践 | 数据更敏捷,不一定符合治理指南 |
对比设计和数据结构
在高层次上,数据湖和仓库实现了不同的目标,并且基于截然不同的理念。数据仓库旨在作为复杂分析查询的稳定平台。默认情况下,它们是结构化的,因此它们可以支持在线分析处理 (OLAP) 等技术,重点是有效地解决查询。这一切都意味着首先对数据进行建模,然后将其集成到数据仓库中。
数据湖颠覆了这种范式——当用户使用存储的原始数据时,就会应用建模和模式。这允许更轻松地上传数据,并为用户提供运行不同类型分析以发现一系列见解的灵活性。数据湖分析的效率和速度取决于所使用的技术,而较少依赖于数据湖架构或设计。数字化转型网www.szhzxw.cn
未确定的用例与特定目的
“数据湖”一词用于描述集中式但灵活且非结构化的云存储。数据湖可以充当备份或归档数据的水库,但更重要的是,它可以成为自助分析平台。数据湖允许在没有预定目的的情况下将信息加载到存储中。
同时,数据仓库满足特定的业务需求或用户需求。它们是从头开始设计的,旨在解决这个特定问题,以后几乎没有适应性或分析即兴发挥的空间。数字化转型网www.szhzxw.cn
不同的用户和可访问性
数据湖包含原始数据并迎合整个企业的用户,但通常技术上更专业的用户将获得最大的价值。同时,数据仓库包含更多处理过的数据,预期以业务为中心的用户群和商业智能应用程序。
拥有处理大量非结构化数据的专业知识的数据科学家是数据湖的主要用户。然而,由于自助数据准备工具的出现,不太专业的用户也可以与非结构化数据进行交互。数据湖使从事数据发现或提出假设性问题的高级用户以及需要真实来源和访问未处理数据以供参考或验证的任何人都可以使用。
同时,业务分析师和技术水平较低的决策者可以更容易地使用预处理数据,例如数据仓库中的数据。来自仓库的数据由 BI 工具访问,并成为每日或每周报告、演示中的图表或电子表格中的简单汇总,呈现给高管。数字化转型网www.szhzxw.cn
敏捷性和分析与数据质量
数据湖和数据仓库都有助于分析;不同之处在于,在仓库中处理的数据具有预先确定的用例,而在数据湖中,其目的可能尚未确定。
虽然数据湖中的原始数据具有可塑性,这是敏捷分析和机器学习的理想选择,但其非结构化性质意味着对数据治理实践的遵守程度较低。在数据仓库中,用于组装和管理系统的业务流程可确保高质量数据并符合数据治理标准。
五、数据湖的好处
数据湖最适合需要向具有不同技能和需求的利益相关者提供大量数据的企业。在这种情况下,它们提供了许多好处。数字化转型网www.szhzxw.cn
资源减少:
能够存储任何类型的数据意味着在不损失价值的情况下节省资源。在传统系统中,工程师和设计师努力在一个模型下将所有东西组合在一起。未使用的数据表示浪费在不必要的处理上的时间。在数据湖中,只有在消耗信息时才会消耗资源。
组织范围内的可访问性:
数据湖提供了一种绕过业务流程之间严格的孤岛和官僚边界的方法。如果拥有适当的权限,每个利益相关者都有权访问任何和所有企业数据。数字化转型网www.szhzxw.cn
性能效率:
数据湖不需要由模式定义数据。因此,数据湖的使用导致更简单的数据管道和更快的设计和规划过程。
六、数据湖的挑战
构建数据湖的主要危险在于,糟糕的规划或管理可能会将存储库转变为数据沼泽。数据沼泽是一个价值下降的数据湖,无论是由于设计错误、陈旧数据,还是由于用户不知情和缺乏定期访问。实施数据湖的企业如果希望避免陷入数据沼泽,就应该预见到几个重要的挑战。数字化转型网www.szhzxw.cn
设置业务优先级:假设任何类型的数据最终都会提供价值并将所有内容都放入存储中并不是一个好的做法。组织应该评估他们的优先事项,然后大致了解哪些数据可用于存储,最后预测业务可能会如何发展以及这对潜在数据湖的内容意味着什么。
指定用例和最终用户:数据应该准确且适合特定目的,但也要迎合操作它的人的需求。与其消费者可用的工具和技能不一致的数据没有多大用处。
致力于良好的沟通:数据湖不能是不透明的存储。在实施之前,企业必须致力于良好的沟通,以保持重点并确保重要的利益相关者了解如何以及为何使用数据湖中的数据。尽管数据湖通常无需建模即可从摄取中受益,但这并不意味着它们不应该被记录下来。知道在何处查找有关存储数据的来源和内容的详细信息的用户可以更好地准备对该数据采取行动。数字化转型网www.szhzxw.cn
建立稳健的数据摄取流程:专注于分析可能会导致不重视摄取。数据湖需要快速、准确的摄取,因为将未损坏的原始数据存入存储是主要关注点。就数据湖而言,这一步似乎很容易,但如果没有强大的数据摄取步骤,数据湖就会失败。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于CDO之家;编辑/翻译:数字化转型网Jack。








