数据计算-数智化转型网szhzxw.cn

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

（1）离线计算引擎

在众多的计算引擎中，MapReduce、Hive、Spark等通常用于离线处理，即批计算。Storm、Spark Steaming等处理实时计算的场景较多，即流计算。不得不说的是，Flink既可以用于流计算，也可以用于批计算。

其中Hive的用途很广，也很可靠，底层基于MapReduce的封装，属于Hadoop全家桶组件之一，缺点是只能实现离线批处理。数字化转型网www.szhzxw.cn

Spark是非常高效的批处理工具，成熟，稳定，比Hive快很多，并且还能实现近实时的数据处理能力。Spark功能全，架构新，基于RDD，计算过程中优先利用内存，并优化中间的计算步骤。

专家观点：

Spark+数据湖是未来的发展方向。
离线的场景很丰富，但是缺乏处理的非常好的统一的计算引擎，hive和spark都无法做到，所以这一块未来还有很大的发挥空间。

（2）实时计算引擎优缺点及适用场景

实时计算引擎大体经过了三代，依次是：storm、spark streaming、Flink。其中storm和spark streaming现在用的很少，大部分公司都在用Flink。数字化转型网www.szhzxw.cn

专家观点：

Flink的优点是：可以实时的进行计算，在处理流计算这个方向上是最好的组件，而且几乎可以替代近实时的业务场景。

缺点是对离线处理会略显不足，不太适合处理大批量的离线数据集。

Flink的优化方向很多：a.Flink在流处理稳定性上，虽然已经做到极细粒度，但是遇到阻塞时，会存在丢失数据的问题。需要加强稳定性。b.实时性的提升：实时的优化是无底洞，业务需求能到秒级别、毫秒级别，怎么能让Flink在业务场景用的好，提升速度的同时，保持数据一致性，是Flink面临的挑战。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题包含：数字化转型网（www.szhzxw.cn）

1、数据相关外脑支持：100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社：与全球数据相关专家、实践者共同探讨相关问题，推动产业发展！

3、国际认证培训：目前已引进DAMA国际认证CDMP，其他国内外认证也在逐步引进中

4、典型案例参考：与数字化转型网数据要素X研习社社员一起学习典型案例，共探企业数据落地应用

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于五分钟学大数据；编辑/翻译：数字化转型网Jack。

数据计算