Flink 源码阅读笔记(12)- 时间、定时器和窗口 2019-07-07 流式数据处理中,很多操作要依赖于时间属性进行,因此时间属性也是流式引擎能够保证准确处理数据的基石。在这篇文章中,我们将对 Flink 中时间属性和窗口的 阅读更多
Flink 源码阅读笔记(11)- Checkpoint 机制和状态恢复 2019-06-22 在上一篇文章中,我们对 Flink 状态管理相关的代码逻辑进行了分析,但为了实现任务的故障恢复以及数据一致性的效果,还需要借助于检查点(Checkpoi 阅读更多
Flink 源码阅读笔记(10)- State 管理 2019-06-15 状态 State 是 Flink 中用于构建复杂逻辑的重要组件。本文将从源码角度来分析 Flink 的状态管理是如何实现的。状态 (State)需要配合检查点(Checkpoin 阅读更多
Flink 源码阅读笔记(9)- Task 的生命周期 2019-06-02 一个 Flink Job 提交到集群中运行时,会被调度为不同的 Task。在前面的文章中,我们已经介绍了 Flink 如何根据用户的编写的程序生成调度用的执行图,如何为 Task 分 阅读更多
Flink 源码阅读笔记(8)- Task 之间的数据传输 2019-05-25 在这篇文章中,我们将探讨一个 Flink 作业在实际运行时,不同的 Task 之间是如何进行数据交换的。由于不同的 Task 可能并非运行在同一个 TaskManager 中,因而数据传输的过程中 阅读更多
Flink 源码阅读笔记(7)- 内存管理 2019-05-19 基于 JVM 的大数据处理分析引擎面临的一个问题是,为了高效地处理数据,有大量的数据需要保存在内存中。直接使用 JVM 堆内存来管理这些数据对象是最简单的实 阅读更多
Flink 源码阅读笔记(6)- 计算资源管理 2019-05-11 在 Flink 中,计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 Task Slot 的基本概念 我们在前面的文章中了解了 Flink 集群的启动流 阅读更多
Flink 源码阅读笔记(5)- 集群启动流程 2019-05-05 在 Flink 1.5.0 版本发布的时候,Flink 迎来了一个重要的改进:根据 FLIP-6 重构了 Flink 集群部署和任务处理模型,以便更好地和管理资源和调度任务,更优雅地和 Yar 阅读更多
Flink 源码阅读笔记(4)- RPC 2019-05-03 作为一个分布式系统,Flink 内部不同组件之间通信依赖于 RPC 机制。这篇文章将对 Flink 的 RPC 框架加以分析。 例子 先来看一个简单的例子,了解 Flink 内部的 RPC 框架 阅读更多
Flink 源码阅读笔记(3)- ExecutionGraph 的生成 2019-02-23 我们前面已经分析过 StreamGraph, JobGraph 的生成过程,这两个执行图都是在 client 端生成的。接下来我们将把目光头投向 Flink Job 运行时调度层核心的执行图 - ExecutionGr 阅读更多