Aloha:一个分布式任务调度框架 2019-03-15 概览 Aloha 是一个基于 Scala 实现的分布式的任务调度和管理框架,提供插件式扩展功能,可以用来调度各种类型的任务。Aloha 的典型的应用场景是作为统一的任 阅读更多
Flink 源码阅读笔记(21)- Flink JobManager HA 机制的扩展与实现 2020-12-26 在 Flink 1.12 中,Flink on Kubernetes 的 Native 部署方案由实验特性正式变更为生产环境可用。其中一个重要特性是扩展了 HA 的实现,引入了一种新的、完全基于 Kubernetes 的 HA 方案。 阅读更多
Flink 源码阅读笔记(20)- Flink 基于 Mailbox 的线程模型 2020-12-20 Flink 1.10 对内部事件处理的线程模型做了一个大的改进,采用了类似 Actor 的信箱模型。这篇文章我们将深入 Flink 内部 Mailbox 线程模型的设计即实现。 背景 在之前的线程模型中 阅读更多
Flink 源码阅读笔记(19)- Flink SQL 中流表 Join 的实现 2020-01-05 在使用 SQL 进行数据分析的过程中,关联查询是经常要使用到的操作。在传统的 OLTP 和 OLAP 领域中,关联查询的数据集都是有界的,因此可以依赖于缓存有界的数据集 阅读更多
Flink 源码阅读笔记(18)- Flink SQL 中的流和动态表 2019-10-19 SQL 和关系代数在设计之初就针对的是静态的数据。静态数据是有界的,因此可以很容易地和表(关系)进行映射。但是对于一个不断变化的实时数据流而言,数 阅读更多
Flink 源码阅读笔记(17)- Flink SQL 中的时间属性 2019-09-29 在流计算中,时间属性承担了一个极其重要的作用,所有基于时间的操作,例如窗口操作,都需要正确获取时间信息。我们曾经在Flink 源码阅读笔记(1 阅读更多
Flink 源码阅读笔记(16)- Flink SQL 的元数据管理 2019-09-15 为了使用 SQL,一个首先需要解决的是元数据管理的问题。元数据的管理包括表的元数据和 UDF 的元数据,这使得完全使用 SQL 语句来构建实时任务成为可能。 Catalog 阅读更多
Flink 源码阅读笔记(15)- Flink SQL 整体执行框架 2019-09-04 在数据处理领域,无论是实时数据处理还是离线数据处理,使用 SQL 简化开发将会是未来的整体发展趋势。尽管 SQL 简化了使用的门槛,但是如何将 SQL 等价转换到现 阅读更多
Flink 源码阅读笔记(14)- Async I/O 的实现 2019-07-27 在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据 阅读更多
Flink 源码阅读笔记(13)- 双流操作的实现 2019-07-13 在使用 Flink 进行实时数据处理时,一个常用的场景是对两个流的数据进行关联。这篇文章中我们将对双流操作的底层实现机制进行分析。 Window Join and CoGroup Window Join 操作,顾名 阅读更多