数智化转型网szhzxw.cn 服务商资讯 服务商资讯|全面简化架构,降低成本,大幅提升数据处理效率

服务商资讯|全面简化架构,降低成本,大幅提升数据处理效率

摘要:在数字经济蓬勃发展的今天,大数据技术已成为推动企业创新和提升竞争力的关键力量。然而,随着市场快速变化,大数据平台也面临着诸多挑战和变革。对于依赖CDH构建大数据平台的企业来说当前正在面临诸多挑战。星环科技助力企业建设了一个统一的数据中台体系,平滑迁移CDH,各项数据处理指标均实现性能突破,本篇文章将为读者介绍在该场景下所使用到的核心技术点,希望能为读者在进行数字化转型过程中的技术选型提供思路。

前言

随着市场快速变化,大数据平台也面临着诸多挑战和变革。对于依赖CDH构建大数据平台的企业来说当前正在面临以下多重挑战:

  • 技术升级:CDH过往版本在大数据生态服务支持上相对有限,用户在应对新需求和数据处理场景变化时,需要自行扩展技术生态,这将涉及到技术复杂性、兼容性问题以及后续维护挑战,增加了额外的时间和人力投入;数智化转型网www.szhzxw.cn
  • 数据安全与挑战:随着CDH停止更新,其管理面的漏洞和各大数据组件的漏洞修复可能得不到Cloudera官方支持,导致未修复漏洞、遗留代码风险、合规性问题、依赖关系问题以及供应链攻击等安全风险大幅增加;
  • 系统统维护挑战:CDH免费版官方支持的结束意味着企业需要自行维护系统,管理面的漏洞和大数据组件的漏洞修复将无法得到官方支持,导致安全风险大幅增加,增加了运维压力。对于企业来说需要自行应对这些挑战,比如招聘具备大数据维护能力的专业工程师或与第三方服务提供商合作,以便于后续的运维管理;
  • 合规性:在“十四五”规划中,国家对企业数字化转型升级提出了明确的政策要求,鼓励国内企业积极采用国产技术和产品。然而,CDH大数据技术和生态系统在兼容国产软硬件方面难以满足合规性要求;
  • 本地化服务与稳定性挑战:随着大数据技术在企业中的应用不断深化,对平台服务的连续性和稳定性保障需求日益凸显。本地化服务供应商能更好地理解企业需求和业务流程,提供定制化解决方案。然而,CDH在本地化服务方面的不足,不利于企业大数据平台的长期稳定运营;
  • ….数智化转型网www.szhzxw.cn

综上,CDH国产化替代已迫在眉睫,不仅关乎技术升级和数据安全,也涉及合规性和本地化服务的稳定性。企业需要积极寻求新的技术平台和合作伙伴,以确保在数字经济时代保持竞争力和业务连续性。

项目背景

为了应对数据量的日益增长,在早期,该企业构建了一个基于MPP技术架构的数据仓库。但是在企业日常生产运行过程中,伴随着业务的持续发展以及金融科技基础能力的不断提升,各个信息系统数据量日渐增长,数据应用场景更加复杂化,对于数据的实效性实时性要求更高。

原有的数据仓库架构对于实时场景与多模数据湖场景支持较差,并且应金融科技规划的重要举措,急需构建一个全行级的数据中台服务体系来满足数据应用、数据服务以及数据共享等中台场景,助力实现完善的客户管理及服务,持续产品创新,极致化的渠道服务体验,科学的决策管理,全面的数字化运营,不断促进企业数字化转型。数智化转型网www.szhzxw.cn

因此,该行于近两年着手计划建设一个统一的数据中台体系,数据类系统共享计算和存储资源,使用统一的开发和管理工具,避免系统、功能、应用的重复性建设。

建设目标

  • 搭建数据中台,基于大数据分布式存储与计算的能力,具有可界面化操作,快速引入内部或外部、离线或实时的异构数据,并规范化地构建数据;
  • 可以通过规范建模开发数据,构建指标库,沉淀业务数据知识和数据资产,支持API等多种类型的数据服务;数智化转型网www.szhzxw.cn

实现企业级业务能力复用和不同业务板块能力的联通和融合,核心是建设跨域融合数据+数据服务能力开放,从而达到反向业务赋能。

建设成果

基于以上项目背景及建设目标,星环助力该企业打造云原生数据湖+统一数据资产管理整体解决方案,完成了原有开源大数据平台替换,对接企业现有应用与其他平台,助力该企业整体的数字化建设,各项指标性能均超额完成预期目标实现数据处理效率的性能突破:

  • 基于 Rowkey 表(性能增强版)和ArgoDB Sink API 实现数据高效实时入库,单表数据量达 14 亿+,每日增量千万级数智化转型网www.szhzxw.cn
  • 采用物化视图 2.0,快速加工增量数据供加速下游查询,提升数据处理效率
  • 核心实时报表有160多个登记簿场景报表,每个场景涉及1至10多个复杂SQL的串行查询。采用Gateway缓存 + Localfast 等技术,指标查询响应时间低至秒级(1-3秒),并发能力提升至 200+

技术实现点介绍

1. Rowkey 表

Rowkey 表是一种优化的数据存储表,通过指定唯一主键来避免数据重复,专为提高数据写入和读取性能而设计。通过设置 rowkey,ArgoDB 实现了高性能的 UPSERT 能力,即在写入时能够直接定位数据行,避免全表扫描,实现快速的整行或部分列更新,确保数据的唯一性。

推出背景

在传统的数据存储方案中,读时合并(MOR)被广泛应用于实现快速数据写入的场景,其原理是通过将新数据追加到 Delta 文件中,而不是直接修改基础数据文件(Base 文件),从而大幅提高了写入速度,有效避免写入过程中对现有数据的直接修改,减少写入锁定和资源争用。

然而,在读取数据时,MOR 机制需要将 Base 文件和 Delta 文件进行合并。这种读时合并操作会显著增加读取时的计算开销,导致查询性能下降,尤其是在数据频繁变更和大量查询请求的场景下。这种高开销的合并操作会拖慢系统响应时间,不利于实时数据访问需求。

为克服传统 MOR 机制的不足,在 ArgoDB 6.0 版本中,星环引入了 Rowkey 表(性能增强版),通过优化数据组织和管理方式,实现了快速写入和高效读取:数智化转型网www.szhzxw.cn

  • 快速写入:通过 Slipstream 或 ArgoDB API 等方式将实时数据写入至Rowkey 表,写入时仅将基础数据文件写入慢读层,无需立即进行去重和合并操作,从而实现实时数据的极速写入;
  • 高效读取:系统后台自动执行合并操作,将写入的基础数据文件合并去重后转移至快读层。这种分层机制确保读取时无需额外的合并处理,同时结合向量化引擎加速查询,大幅提升查询效率;
  • 一致性选择:根据业务需求选择不同的读取层来平衡数据一致性和读取性能。例如需要获取最新数据,可以选择从慢读层读取(采用 MOR 策略,可能会有一些合并开销);如果需要读取速度优先,则可以选择从快读层读取,这样可以提供稳定的高性能查询,但数据的最新状态可能存在轻微的延迟,取决于后台合并操作的策略配置。

2. 基于 API 实时入库

ArgoDB Data Sink是一种针对实时数据处理需求而设计的高效数据入库解决方案,通过 API 直接操作物理文件的方式,结合微批处理的逻辑,为复杂的实时数据流和第三方数据源接入提供了高性能和灵活的数据写入方案。数智化转型网www.szhzxw.cn

推出背景

在实时数据处理场景中,数据源常常是分布式消息队列(如 Kafka),它能够支持高吞吐量的数据传输。传统的数据处理流程通常涉及将消息队列中的数据消费出来,经过一系列的处理后,转换成 SQL 语句,然后通过数据库的 SQL 引擎执行,将数据最终写入到物理存储中。这种流程虽然通用,但在处理高吞吐量的实时数据时,SQL 引擎的转换和执行可能会成为瓶颈,导致数据处理的延迟。

此外,对某些第三方数据源而言,其数据格式可能并不适合直接转换为 SQL 语句,或者转换的实现较为复杂,甚至有数据损失的风险。在这种情况下,传统的数据处理流程可能无法满足需求。

为了解决这些问题,ArgoDB 推出了 ArgoDB Data Sink,它允许用户绕过传统的 SQL 引擎,直接将数据以 API 的形式写入到 ArgoDB 的物理文件中,并通过微批处理的方式进行数据写入,极大地提升了数据处理的效率和灵活性,适用于下述场景:数智化转型网www.szhzxw.cn

  •  高吞吐数据流:设计用于处理高速数据流,通过微批处理确保数据的快速稳定写入,非常适合实时或近实时的场景;
  •  复杂数据源接入:提供直接操作物理文件的能力,简化了从复杂数据源到数据库的接入过程,特别是对于难以转换为SQL的数据源;
  • 实时分析:凭借高效的写入性能和微批处理特性,非常适用于需要快速处理并写入大量数据的实时或近实时数据分析场景,为上层应用提供及时的数据支持;

3. 物化视图 2.0

全新的物化视图 2.0 突破了传统方案的语法限制和 MBO 改写限制,为复杂查询提供了更快、更精准的加速能力。数智化转型网www.szhzxw.cn

视图(VIEW)用于保存复杂的 SQL 查询,以便简化后续操作,但其本质仍是执行保存的 SQL 语句,因此无法提升查询性能。为了解决这一问题,ArgoDB 推出了物化视图 2.0,突破了传统物化视图的 MBO 改写限制和对复杂语法支持有限的问题,显著提高数据同步效率,为您提供更快速、更精准的数据查询加速能力。

对比项物化视图 2.0传统物化视图
创建支持无限制创建语法受限
语法支持无限制仅简单语法
查询原理基于视图查询,系统自动替换为关联的物化表基于源表查询,系统基于 MBO 改写
更新原理基于源表最新数据创建新物化表并自动关联,随后删除旧物化表原地更新(清空表+写入新数据)
结果集匹配在编译前匹配视图的结果集与其对应的物化表在执行计划阶段匹配 SQL 查询语句的结果集与物化视图
数据过期表现不会读到过期数据(自动转查基表)可能会读到过期数据

4. Gateway 结果集缓存

Quark Gateway 是连接客户端与 Quark 服务的一个中间件,可帮助均衡 Quark 服务的业务流量,便捷实现查询入口的高可用、自定义路由转发和负载均衡能力。数智化转型网www.szhzxw.cn

为提升查询性能,Quark Gateway 引入了结果集缓存功能,通过缓存常用查询结果,显著减少重复查询对 Quark 服务的影响,加快相同查询的响应速度。此外,Quark Gateway 还提供了 TTL(缓存过期时间)、定时刷新等多种缓存更新策略,用户可根据具体任务需求灵活选择最优方案。核心优势:

  • 提升查询效率:对重复或常规的查询请求进行缓存,显著减少数据处理时间,提升查询响应速率;
  • 降低系统负担:有效减轻 Quark 服务的处理压力,减少对后端服务的重复查询,系统能够将更多资源集中用于处理更多更复杂的查询请求;

数智化转型网正在帮助企业寻找优质的数智化服务商,如果您想联系该厂商的人,请联系我们!思思:17757154048(微信同号)数智化转型网www.szhzxw.cn

如果贵司从事服务商行业,希望获得免费 曝光权益或跟我们进行合作,请联系我们!Nora:N19221855776(微信同号)数智化转型网www.szhzxw.cn

数智化转型网数智化服务商库拥有来自数智化咨询、ERP、ERP实施、WMS、MES、CRM、SCRM、HR数智化、OA、协同办公数智化、电子签章、发票解决方案、税务解决方案、SRM供应商管理数智化、常见硬件等IT基础设施、低代码开发类、流程管理、预算管理、差旅管理、费控报销数智化、客服数智化、项目与任务管理、研发数智化PLM、财务共享数智化、TMS、电子招投标、B2B供应链管理、视频会议产品、企业直播、在线教育、在线文档、表格信息收集工具、智慧桌面运维、企业文档管理、云计算、云服务、营销数智化、MA、舆情监测分析、E-learning学习平台产品、电商数智化、电商ERP、国产操作系统、国产数据库、ESB、合同管理系统、资金管理、RPA、AI人工智能、信息安全、数据备份与恢复、网络安全态势感知、网管/ITIL/运维管理系统、虚拟云桌面、应用统一身份管理/身份认证/单点登录、上网行为管理、VPN、智慧园区、防火墙、主机文档加密与权限控制、邮件安全产品、运维审计/4A/堡垒机、桌面管理/主机审计、网闸、防病毒、虚拟化安全防护、SIEM/日志管理/日志审计/SOC/安管平台、网络准入控制、主机加固/服务器加固/EDR、打印安全、Web应用防火墙、加密机/密码机、基于云的安全服务、SIEM/日志管理/日志审计等数智化所需软硬件等百余个品类的大小型服务商资料及用户实际使用情况及相应产品同行业实际口碑。数智化转型网szhzxw.cn

数智化转型网数智化服务商库同时拥有来自制造业、消费品行业、电力行业、文化出版行业、医疗行业、外贸行业、交通行业、零售连锁行业、电子商务行业、电商行业、建筑地产行业、汽车销售行业、汽车零部件行业、汽车整车行业、服装制造行业、服装销售行业、教育行业、金融行业、银行业、保险业、证券业、餐饮行业、酒店行业、物流行业、物业行业等具有不同行业特性的数智化服务商方案及用户实际使用情况及相关产品在行业内的具体口碑;也拥有来自外企、央国企、民企等不同类型企业的适用服务商方案及相关产品在同类型企业用户的实际使用情况及具体口碑情况。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数智化转型网www.szhzxw.cn

本文由数智化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)宁檬树

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/108712.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部