深入理解Flink:实时大数据处理实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 流式数据架构理论

在移动互联网领域,个性化服务、极致的用户体验要求业务系统具备实时数据处理能力,传统的批处理数据架构已经不堪重负。经过一系列理论创新与实践探索,流式数据架构 Flink 在实时数据处理领域取得了巨大成功,正成为大数据处理的标配框架。

为了让读者厘清大数据处理架构变革的源与流,1.1节先概述大数据处理架构的演进历程,如Storm、Spark、Lambda、Flink;为了让读者更容易理解流式数据架构思想,1.2节将以韩国SK电信的Driving score技术架构演变和流式数据架构在机器学习领域的应用为例,介绍流式数据架构的产生背景及应用场景;1.3节将介绍流、时间、窗口、水印、触发器等,并在这些概念的基础上剖析数据处理的各种模式;1.4节将梳理流式数据架构中主要概念间的关联和关系,并以实例分析根据事件时间开滚动窗口的内在机制;1.5节将论述流式数据架构中一致性理论的基础及实现方式,如有状态计算、检查点、保存点等概念。