首页 > 编程笔记

Flink框架是什么？

根据官方（https://flink.apache.org）的说法，所谓的 Flink 是一个开源的大数据框架和分布式处理引擎，它由 Apache 软件基金会开源，用于在无界和有界流数据上进行有状态的计算。

无界是指：有数据流的开始点，但没有数据流的结束点；有界是指：有数据流的开始点，且有数据流的结束点。

图1所示是官方网站首页的一幅图，用来说明 Flink 常见的应用架构。

图1：Flink 应用架构

从图中可以看出，Flink 应用架构一般由多个 Flink 计算节点构成集群，在资源调度方面可以基于 K8s（Kubernetes，简称 K8s）、Yarn 和 Mesos 等组件。在存储方面，可以支持 HDFS、S3 和 NFS 等文件系统。

在集群内部，不同节点可以进行数据交互，并可维护相关的状态数据，这样在计算过程中，如果发送异常，可以借助容错机制从中间状态进行数据恢复，这一点对于一个分布式应用程序来说至关重要。

Flink 框架将复杂的分布式计算框架进行抽象，内部复杂的调度、计算过程对用户来说是透明的，用户只需关注具体的计算逻辑即可。

如果将 Fink 应用集群看作是一个函数的话，它可以接收多种流数据输入作为参数，比如实时事件数据、传统数据库数据、文件系统数据以及键值对存储系统。这些各种类型的数据可以来自事务系统、日志、物联网设备以及网页点击流等。

另外，Fink 可以将处理后的数据，输出到第三方应用系统、事件日志、数据库系统、文件系统以及键值对存储系统中。

Flink 程序主要由 Java 语言或 Scala 语言开发，另外还支持 Python 语言。但其底层组件和 Flink 运行时（runtime）运行在 JVM 上，因此，Flink 程序可以运行在多种平台上，如 Linux、Unix、Mac OS X 和 Windows 操作系统上。

Flink 能在计算机内存中进行分布式数据处理，因此计算速度非常快，且计算的延迟低。

官方给出了 Flink 用户在生产环境下得出的一些让人惊叹的数据：

Flink 应用每天可以处理数万亿的事件。
Flink 应用可以维护 TB 级别的状态信息。
Flink 应用可以在数千个内核上运行。
Flink 应用具有高吞吐、低延迟的特性。

Flink 官方网站也给出了一些优点，具体罗列如下：

1) 适用于所有的流应用场景，如事件驱动应用、数据管道和 ETL 处理。

2) 高级别的计算正确性保证，支持精确的一次语义，保证数据只被消费一次且无遗漏，这个一般是非常难实现的。

另外，基于事件时间（Event time）和延迟机制可以处理延迟导致的乱序数据计算。

3) 大规模集群计算能力，支持水平横向扩展、大规模状态存储以及增量检查点机制。当计算能力不足时，可以通过增加计算节点来提升总体计算能力。

4) 应用运维成本低，支持多种部署模式，可以灵活部署。

另外，高可用机制可以最大程度保证服务的稳定性，即使某个节点宕机，也不影响其他节点对外提供服务。
卓越的计算性能。通过在内存中进行数据计算，实现高吞吐和低延迟的数据处理能力，这点对于实时处理程序来说非常重要。

5) 分层次的 API。

对于不同的开发用户而言，对 API 使用的偏好是不同的，Flink SQL API 可以基于 SQL 语法来实现对流批数据的一体化处理，这个也更加友好。

另外，还提供专门的 DataStream API 来处理流数据计算，DataSet API 来处理批数据计算。

对于上层不提供的功能，用户可以基于底层的 API 定制数据计算逻辑。

Flink 用户

Flink 目前在大数据技术栈中，占有非常重要的位置，特别在流数据处理领域，更是很多大厂的不二选择。在国内，阿里通过各种途径积极完善和推广 Flink 技术，并从源码层面做出了非常重要的贡献。

Flink 在国内外的众多大厂中被广泛使用，其中部分典型的用户（排名不分先后）如图2所示。

图2：Flink 部分典型的用户列表

可以说，这些大厂的业务复杂度和数据存有量都是世界级的，经过他们在生产环境下的实践检验，事实证明 Flink 确实是一款非常优秀的大数据分布式处理框架。其中：

阿里巴巴用 Flink 来实现商品的实时搜索排名。
Bouygues 公司的 30 多个 Flink 应用程序，每天处理约 100 亿个事件。
Capital One 是一家财富 500 强金融服务公司，它用 Flink 进行实时的活动监控和预警服务。
滴滴出行用 Flink 实现了实时监控、实时特征抽取和实时 ETL 等业务，大大提升了产品的满意度。
华为基于 Flink 打造相关云服务。
OPPO 公司用 Flink 构建实时数据仓库，用于实时数据分析，为提升营销活动效果相关决策服务。

一般来说，Flink 应用程序会运行在 Linux 操作集群上，而开发环境可以是 Windows 操作、Mac OS 操作系统或者 Linux 操作系统。其中 Deepin 操作系统则是国产的一款非常好用的 Linux 操作系统，界面也非常美观。

Flink框架是什么？

Flink 用户

推荐阅读