Apache Flink是什么？

2025-05-11 02:34:23

推荐回答（2个）

回答1：

Flink其实就是Apache Flink，是一款业内非常火的大数据产品，由Apache软件基金会开发，核心是用Java和Scala编写的分布式流数据流引擎。Apache Flink是个旨在提供‘一站式’ 的分布式开源数据处理框架。

Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。

此外，Flink的运行时本身也支持迭代算法的执行。

虽然，spark和storm的计算框架非常成熟，但是Flink仍然占据了一席之地。

主要在于flink在设计event time处理模型上比较优秀：watermark的计算实时性高，输出延迟低，而且接受迟到数据没有spark那么受限。

另外，Flink提供的window programming模型非常的灵活，不但支持spark、storm没有的session window，而且只要实现其提供的WindowAssigner、Trigger、Evictor就能创造出符合自身业务逻辑的window，flink可谓功能非常强大。

回答2：

Flink为流处理和批处理应用公用一个通用的引擎。
1、数据量&吞吐量&延迟性
Flink 的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。
2、支持 Event Time 和乱序事件
Flink 支持了流处理和 Event Time 语义的窗口机制。
Event time 使得计算乱序到达的事件或可能延迟到达的事件更加简单。
3、状态计算的 exactly-once 语义
流程序可以在计算过程中维护自定义状态。
Flink 的 checkpointing 机制保证了即时在故障发生下也能保障状态的 exactly once 语义。
4、高度灵活的流式窗口
Flink 支持在时间窗口，统计窗口，session 窗口，以及数据驱动的窗口
窗口可以通过灵活的触发条件来定制，以支持复杂的流计算模式。
5、带反压的连续流模型
数据流应用执行的是不间断的（常驻）operators。
Flink streaming 在运行时有着天然的流控：慢的数据 sink 节点会反压（backpressure）快的数据源（sources）。
6、容错性
Flink 的容错机制是基于 Chandy-Lamport distributed snapshots 来实现的。
这种机制是非常轻量级的，允许系统拥有高吞吐率的同时还能提供强一致性的保障。
7、Batch 和 Streaming 一个系统流处理和批处理共用一个引擎
Flink 为流处理和批处理应用公用一个通用的引擎。批处理应用可以以一种特殊的流处理应用高效地运行。
8、内存管理
Flink 在 JVM 中实现了自己的内存管理。
应用可以超出主内存的大小限制，并且承受更少的垃圾收集的开销。
9、迭代和增量迭代
Flink 具有迭代计算的专门支持（比如在机器学习和图计算中）。
增量迭代可以利用依赖计算来更快地收敛。
10、程序调优
批处理程序会自动地优化一些场景，比如避免一些昂贵的操作（如 shuffles 和 sorts），还有缓存一些中间数据。