2022Apache Flink 必知必会知识.docx

上传人：李司机

文档编号：7147423

上传时间：2024-06-15

格式：DOCX

页数：180

大小：1.43MB

《2022Apache Flink 必知必会知识.docx》由会员分享，可在线阅读，更多相关《2022Apache Flink 必知必会知识.docx（180页珍藏版）》请在三一办公上搜索。

1、ApacheFlink必知必会知识目录走进APaCheFlink4StreamProcessingwithApacheFlink25FlinkRuntimeArchitecture46Fault-toleranceinFlink64FlinkSQ1._Table介绍与实战94PyFIink快速上手115FlinkEcosystems141154FlinkConnector详解走进ApacheFlink 什么是APaCheFlink 为什么要学习APaCheFlink ApacheFlink典型应用场景 pacheFlink基本概念APACHESOFYWARfFounoation、什么是APae

2、heFlinktbe.3System,KV-Store(mEWmloe0M4se,FileSystem,KV-StorcApacheFlink是一个开源的基于流的有状态计算框架。它是分布式地执行的，具备低延迟、高吞吐的优秀性能，并且非常擅长处理有状态的复杂计算逻辑场景。（一）FIink的起源ApachcFlink是Apachc开源软件基金会的一个顶级项目，和许多APaChC顶级项目一样，如Spark起源于UC伯克利的实验室，Flink也是起源于非常有名的大学的实验室一一柏林工业大学实验室。TllTechnischeUniversitatBER1.INIfiU工学(TechnischeUnive

3、rsitatBerlin)StratosphereBigDatalookstinyfromhere.ContributorsM2$comntwtors项目最初的名称为Stratosphere,目标是要让大数据的处理看起来更加地简洁。项目初始的代码贡献者中，有很多至今仍活跃在Apache的项目管理委员会里，在社区里持续做出贡献2010年簧StratosphereFIink2014年Stratosphere项目于2010年发起，从它的Gitcommit日志里面可以看到，它的第一行代码是在2010年的12月15日编写的。From:RoOertNetzgerSUbjof，1U,UdnijIHFSHlT

4、lW.m(OrtheStratosphereprojectDateIMay14.214；t2：4肌26AMPDTJTo:TwTj?OrgFllnkReply-To:devfstratosphere.Incubator.apache.Org2014年5月，Stratosphere项目被贡献到Apache软件基金会，作为孵化器项目进行孵化，并更名为Flink0（二）Flink的发展IlH，Flink项目非常活跃，2014年的8月27号发布了孵化器里的第一个版本v,6-IncubatingoFro:KostasTxoumi3：(264八2八213：99;3J1.Ut：achFlUtkFro:Robe

5、rtMetzgerls:2014年12月12日成为Apache顶级项目Flink飨一个ReleaSe版本Flink0.8.0由于Flink项目吸引了非常多贡献者参与，活跃度等方面也都非常优秀，它在2014年12月成为了Apache的顶级项目。成为顶级项目之后，它在一个月之后发布了第一个Release版本Flink0.8,0o在此之后，Flink基本保持4个月1个版本的节奏，发展到今天。（三）FIink的现状-APaChe社区最活跃的项目用户与开发者邮件列表-第1名开发古代码提交次数-第2名 GithUb用户访问量第2名rse.om,WAtAPgC6（f2,34OC.PyCOMCASTDDi

6、Di舒BUU奥而美团Ctripm怔WSKtelecomemcssT1.APACHEDSTORMSpaStreaming流计算引擎进行了很多代的演进，第一代流计算引擎ApacheStorm是一个纯流的设计，延迟非常的低，但是它的问题也比较明显，即没有办法避免消息的重复处理，从而导致数据正确性有一定的问题。SparkStreaming是第二代流计算引擎，解决了流计算语义正确性的问题，但是它的设计理念是以批为核心，最大的问题是延迟比较高，只能做到10秒级别的延迟,端到端无法实现秒以内的延迟。Flink是第三代流计算引擎，也是最新一代的流计算引擎。它既可以保证低延迟,同时又可以保证消息的一致性语义，对

7、于内置状态的管理，也极大降低了应用程序的复杂度。三、ApacheFlink典型应用场景（一）事件驱动型应用第一类应用场景是事件驱动型应用。事件驱动表示一个事件会触发另一个或者是很多个后续的事件，然后这一系列事件会形成一些信息，基于这些信息需要做一定的处理。在社交场景下，以微博为例，当我们点击了一个关注之后，被关注人的粉丝数就会发生变化。之后如果被关注的人发了一条微博，关注他的粉丝也会收到消息通知，这是一个典型的事件驱动。另外，在网购的场景底下，如用户给商品做评价，这些评价一方面会影响店铺的星级，另外一方面有恶意差评的检测。此外，用户通过点击信息流，也可以看到商品派送或其他状态，这些都可能触发后

8、续的一系列事件。还有金融反欺诈的场景，诈骗者通过短信诈骗，然后在取款机窃取别人的钱财。在这种场景底下，我们通过摄像头拍摄后，迅速反应识别出来，然后对犯罪的行为进行相应的处理。这也是一个典型的事件驱动型应用。淘宝总结一下，事件驱动型应用是一类具有状态的应用，会根据事件流中的事件触发计算、更新状态或进行外部系统操作。事件驱动型应用常见于实时计算业务中，比如:实时推荐，金融反欺诈，实时规则预警等。（二）数据分析型应用第二类典型应用场景是数据分析型应用，如双11成交额实时汇总，包括PV、UV的统计。包括上方图中所示，是Apache开源软件在全世界不同地区的一个下载量，其实也是一个信息的汇总。还包括一些

9、营销大屏，销量的升降，营销策略的结果进行环比、同比的比较，这些背后都涉及到大量信息实时的分析和聚合，这些都是Flink非常典型的使用场景。COT=T订单创建峰值i85855数据体量fi5t三S三fiSJ7TB7TB计算规模-r-JZ如上图所示，以双11为例，在2020年天猫双11购物节，阿里基于Fhnk的实时计算平台每秒处理的消息数达到了40亿条，数据体量达到7TB,订单创建数达到58万/秒，计算规模也超过了150万核。可以看到，这些应用的场景体量很大且对于实时性要求非常高，这也是ApacheFlink非常擅长的场景。（三）数据管道型应用（ET1.）ApacheFlink擅长的第三类场景为数据

10、管道型应用，即ET1.oET1.（Extract-Transform-1.oad）是从数据源抽取,转换/加载,数据至目的端的过程。传统的ET1.使用离线处理，经常做的是小时级别或者天级别的ET1.o但是，随着大数据处理呈现实时化趋势，我们也会有实时数仓的需求，要求在分钟级或者秒级就能够对数据进行更新，从而进行及时的查询，能够看到实时的指标，然后做更实时的判断和分析。F4SyvtemComckxKAflcaConnoctcfElasttcMafchCannectorHBaMCorwMctorJDBCConnKtorHiveComeciofOrcbteSourcCtv1MS*Flink三行ET1.

11、的优势AleSysMmConnectorKComdorEtetKMfchConnectorHBftMCorvwcttxJOeCCOnneCtOrHRmConnectorOrcTabtoSourcCWTBMSinkJD8CAppor11*MSrfcCMMndrflppMTabSlines三env.*ddSourc(nwFlinkKafkaConsuraerO(.);Dat*Stranevents-lines.map(line)-parse(line);DataStreanK.statsHevents.kyBy(event-event.id).tinWindow(Time.seconds(10).

12、apply(newMywindowAggregationFunction();stats.addSink(nwMySink(.);如上方所示，代码是一个简单的Flink作业描述。它首先定义了一个KafkaSource,说明数据源是来自于Kafka消息队列，然后解析Kafka里每一条数据。解析完成后，下发的数据我们会按照事件的ID进行KeyBy,每个分组每10秒钟进行一次窗口的聚合。聚合处理完之后，消息会写到自定义的Sink,以上是一个简单的作业描述，这个作业描述会映射到一个直观的逻辑拓扑。可以看到逻辑拓扑里面有4个称为算子或者是运算的单元，分别是Source.Map、KeyBy/Window/

13、Apply、Sink,我们把逻辑拓扑称为StreamingDataflowe()Flink物理拓扑2W愣.I1.-ITT铲MraMtvnI逻辑柘扑对应物理拓扑，它的每一个算子都可以并发进行处理，进行负裁均衡与处理加速等。大数据的处理基本上都是分布式的，每一个算子都可以有不同的并发度。有KeyBy关键字的时候，会按照key来对数据进行分组，所以在KeyBy前面的算子处理完之后，数据会进行一个Shuffle并发送到下一个算子里面。上图代表了示例对应的物理拓扑。（四）Flink状态管理和快照接下来我们看下Flink里面的状态管理和快照。Sourcesmap()hevOSourcerapflxmiRe

14、moteFileSystemScalableembeddedstategaScaleswithparalleloperatorsfcevWIW*0在进行Window的聚合逻辑时，每隔10秒会对数据进行聚合函数的处理。这10秒内的数据需要先存储起来，待时间窗口触发时进行处理。这些状态数据会以嵌入式存储的形式存储在本地。这里的嵌入式存储既可以是进程的内存里，也可以是类似RocksDB的持久化KV存储，两者最主要的差别是处理速度与容量。此外，这些有状态算F的每个并发都会有个本地的存储，因此它的状态数据本身可以跟随算子的并发度进行动态的扩缩容，从而可以通过增加并发处理很大的数据量。checkpoint

15、barrierMvey(Vwdowfl/WhrOScalableembeddedstateScaleswithparalleloperatorsSBywwindow)/WM)RemoteFileSvstem另一方面，作业在很多情况下有可能会失败。失败之后重新去运行时，我们如何保证数据的一致性？Flink基于Chandy-1.amport算法，会把分布式的每一个节点的状态保存到分布式文件系统里面作为CheCkPOint（检查点），过程大致如下。首先，从数据源端开始注入CheckpointBarrier,它是一种比较特殊的消息。Sourcemap()ErO/wi11duw/OPhTi)Scalab

16、leembeddedstateScaleswithparalleloperatorshryByCtwtW(.)Flink里另个很重要的定义是EventTimeo在Flink里有三种不同的时间，EventTime指事件发生的时间，IngestionTime指事件到达Flink数据源的时间，或者说进入到Flink处理框架的时间，ProcessingTime指处理时间，即到达算子当前的时间，这三个之间有什么区别呢？在现实世界中，这个事件从发生到写入到系统里面，期间的间隔可能比较久。例如在地铁里面信号较弱时，如果我们在微博进行转发、评论、点赞等操作，由于网络的原因，这些操作可能要等我们出了地铁后才能完

17、成，因此可能有些先发生的事件会后到达系统。而EventTime能够更真实地反映事件发生的时间点，因此在很多场景下，我们用EventTime作为事件发生的时间。但是在这种情况底下，山于存在的延迟，所以在窗口需要花费较长的时间等待它的到来，端到端的延迟可能较大。我们还需要处理乱序的问题，如果用ProCeSSingTime当做事件时间的话，处理较快，延迟较低，但是无法反映真实事件发生的情况。因此在真实的开发应用时.，霜要根据应用的特点做相应的取舍。（六）FlinkAPIStream&BatchProcessingStatefulEvent-DrivenApplicationsAnalyticsTab

18、leAPI(dynamictables)DatoStreamAPI(streams,windows)ProcessFunction(events,state,time)FHnk可分成4个层次的API,最底层的API是可以自定义的ProcessFunction,对一些最基本的元素，如时间、状态等，进行细节的处理，实现自己的逻辑。再往上一层是DaiaSireamAP1.它可以做流和批的处理，另外一方面它是逻辑的表达，有很多Flink内置的函数，方便用户编写程序。最上层的API是TabIeAPI和StreamSQ1.,这是一个非常上层的表达形式，非常简洁，我们接下来分别举例说明。6.1 Proces

19、sFunction可以看到，在ProcessElement里边，能够对这个事件、状态进行自定义逻辑的处理。另外，我们可以注册一个timer,并且自定义当timer被触发或时间到达的时候，到底要进行哪些处理，是一个非常精细的底层控制。6.2 DataStreamAPlDataStreamAPl是作业的描述，可以看到它有很多内置的函数，如Map、keyBy、timeWindow、sum等。这也有些我们刚才自定义的ProcessFunction,如MyAggregationFunction06.3 TableAPI&StreamSQ1.同样的逻辑，如果用TabIeAPI和StreamSQ1.描述的话

20、，它就更加地直观。数据分析人员不需要了解底层的细节，可以用一种描述式的语言去写逻辑。有关TableAPI和StreamSQ1.方面的内容，会在第5课进行详细的介绍。（七）Flink运行时架构Flink运行时的架构主要有三个角色。第一个是客户端，客户端会提交它的应用程序，如果它是一个SQ1.程序，还会进行SQ1.优化器的优化，然后生成对应的JObGraph。客户端会把ObGraPh提交到JobManager,可以认为这是整个作业的主控节点。JobManager会拉起,系列的TaSkManager作为工作节点，工作节点之间会按照作业拓扑进行串联，还有相应计算逻辑的处理，JobManager主要是进

21、行一些控制流的处理。（八）Flink物理部署最后我们来看一下Flink能部署哪些环境。首先，它可以通过手动的方式作业提交到YARN,Mesos以及Standalone集群上。另外，它也可以通过镜像的方式提交到K8s云原生的环境中。目前，Fiink在许多物理环境中均能进行部署。StreamProcessingwithApacheFlink作者：崔星灿ApacheFlinkCommitter本篇内容包含三部分展开介绍StreamProcessingwithpacheFlink：并行处理和编程范式 DataStreamAPI概览及简单应用 Flink中的状态和时间一、并行处理和编程范式众所周知，对

22、于计算密集型或数据密集型这样需要计算量比较大的工作，并行计算或分而治之是解决这一类问题非常有效的手段。在这个手段中比较关键的部分是，如何对一个已有任务的划分，或者说如何对计算资源进行合理分配。举例说明，上学期间老师有时会找同学来协助批阅考试试卷。假如卷子里面一共有ABC三个题，那么同学可能会有如下分工协作方式。方式一：将所有试卷的三个题分别交给不同的人来批阅。这种方式，每个批阅的同学批自己负责的题目后就可以把试卷传给下一个批阅同学，从而形成一种流水线的工作效果。但是这种流水线的协作方式会随着同学数量的增加而难以继续扩展。方式二：分工方式一的扩展，同一-题目允许多个同学来共同批阅，比如A题目由两

23、个同学共同批阅，B题目由三个同学批阅，C题目只由一个同学批阅。这时候我们就需要考虑怎样进一步的对计算任务做划分。比如，可以把全部同学分成三组，第一组负责A题目，第一个组负责B题目第三个组负责Co第一个组的同学可以再次在组内进行分工，比如A组里第一个同学批一半的卷子，第二个同学批另一半卷子。他们分别批完了之后，再将自己手里的试卷传递给下一个组。ApacheFlink像上述按照试卷内题目进行划分，以及讲试卷本身进行划分，就是所谓的计算的并行性和数据并行性。并行计算和DAGOAG,DirectedAcyclkGraphlAoacheAr*CcmmuvChndtt*N我们可以用上面有向无环图来表示这种

24、并行性。在图中，批阅A题目的同学，假设还承担了一些额外任务，比如把试卷从老师的办公室拿到批阅试卷的地点；负责C题的同学也有额外任务，就是等所有同学把试卷批完后，进行总分的统计和记录上交的工作。据此，可以把图中所有的节点划分为三个类别。第一个类别是Source,它们负责获取数据(拿试卷)：第二类是数据处理节点，它们大多时候不需要和外部系统打交道：最后一个类别负责将整个计算逻辑写到某个外部系统(统分并上交记录)。这三类节点分别就是SOUrCe节点、Transformation节点和Sink节点。DAG图中，节点表示计算，节点之间的连线代表计算之间的依赖。(一)关于编程的一些内容0hApacheFl

25、ink命令式编程和声明式编程1.WStitl.(lr2.3r4,56r，hr3：3;、aw-*/,命令式声明式publicstaticIntIoperaciveO()HcstaticInteclaratlve()(i*rOT,1.n7hQ*AyfHlliir()for；j.AlrG1)r.CoJ,.(VV4,),I；11)tor(intv:dC4)(tc1.Xt.*cM(v2)/III：!suctvalue)fromCorfinev:gp1.Inr)(v;Irdumrc2Ir,AjMbnfcCCE11rtyChmIttWiNtKff假设有一个数据集，其中包含PlO十个数字，如果把每一个数字都乘

26、以2并做累计求和操作(如h三所示)怎么操(佛？办法有彳胞。如果用编程来解决有两个角度：第一种是采取命令式编程方式，一步一步的相当于告诉机器应该怎样生成一些数据结构，怎样的用这些数据结构去存储一些临时的中间结果，怎样把这些中间结果再转换成为最终的结果，相当于一步一步告诉机渊如何去做；第二种是声明的方式，声明式编程里通常只需要告诉机器去完成怎样的任务，而不需要像命令式那样详细传递。例如我们可以把原有的数据集转化成一个Stream,然后再把Stream转化成一个Int类型的Stream,在此过程中,把每一个数字都乘2,最后再调用SUnI方法，就可以获得所有数字的和。声明式编程语言的代码更简洁，而简洁

27、的开发方式，正是计算引擎追求的效果。所以在FIink里所有与任务编写相关的AP1.都是偏向声明式的。二、DataStreamAPI概览及简单应用在详细介绍DataStreamAPl之前,我们先来看下FHnkAPl的逻辑层次。FlinkAPI逻辑层次ApacheKiink新在旧版本的Flink里，它的API层次遵循上图左侧这样四层的关系。最上层表示我们可以用比较高级的APi,或者说声明程度更高的TableAPl以及SQ1.的方式来编写逻辑。所有SQ1.和TabIeAPl编写的内容都会被Flink内部翻译和优化成一个用DataStreamAPI实现的程序。再往下一层，DataStreamAPI的程

28、序会被表示成为一系列Transformation,最终TranSfOrmatiOn会被翻译成JobGraPh（即上文介绍的DAG）o而在较新版本的Flink里发生了一些改变，主要的改变体现在TableAPI和SQ1.这一层上。它不再会被翻译成DataStreamAPl的程序，而是直接到达底层TranSformation一层。换句话说，DalaSIreamAPI和TableAPI这两者的关系，从一个下层和上层的关系变为了一个平级的关系，这样流程的简化，会相应地带来一些查询优化方面的好处。接下来我们用-个简单的DataStreamAPI程序作为示例来介绍，还是上文乘2再求和的需求。ApacheFl

29、inkDataStreamAPI示例StreaxExecutionErivironmentc-Strenxcut1.OnEnvironment.aeexccutionnv2roncnt();2JlsourcPitIUttJKDatiC,.I.n.7：.；,dau).Typc?：.,.napJtoyBy.umJ&爵数m、:人SJnK如果用Flink表示，它的基本代码如上图所示。看上去比单机的示例要稍微的复杂一点，我们一步一步来分解看。首先，用Flink实现任何功能，一定要获取一个相应的运行环境，也就是SreamExecutionEnvironment；其次，在获取环境后，可以调用环境的addSo

30、urce方法，来为逻辑添加一个最初始数据源的输入；设置完数据源后可以拿到数据源的引用，也就是DataSource对象；最后，可以调用一系列的转换方法来对DataSource中的数据进行转化。这种转化如图所示，就是把每个数字都X2,随后为了求和我们必须利用keyBy对数据进行分组。传入的常数表示把所有的数据都分到一组里边，最后再对这个组里边的所有的数据，按照第一个字段进行累加，最终得到结果。在得到结果后，不能简单的像单机程序那样把它输出，而是需要在整个逻辑里面加一个的Sink节点，把所有的数据写到目标位置。上述工作完成后，要去调用Environment里面Execute方法，把所有上面编写的逻辑

31、统一提交到远程或者本地的一个集群上执行。FlinkDataStreamAPI编写程序和单机程序最大的不同就在于，它前几步的过程都不会触发数据的计算，而像在绘制一个DG图。等整个逻辑的DAG图绘制完毕之后，就可以通过EXeCUte方法，把整个的图作为一个整体，提交到集群上去执行。介绍到这里，就把FlinkDataStreamAPI和DAG图联系在一起了。事实上，Flink任务具体的产生过程比上面描述的要复杂得多，它要经过一步步转化和优化等，下图展示了Flink作业的具体生成过程。Flink作业产生过程*ApacheFlink(一)DataStreamAPI里提供的转换操作就像上文在示例代码中展示

32、的，每一个DataStream对象，在被调用相应方法的时候，都会产生一个新的转换。相应的，底层会生成一个新的算子，这个算子会被添加到现有逻辑的DAG图中。相当于添加一条连线来指向现有DAG图的最后一个节点。所有的这些API在调动它的时候都会产生一个新的对象，然后可以在新的对象上去继续调用它的转换方法。就是像这种链式的方式，一步一步把这个DAG图给画出来。ApacheFlinkDataStream转换操作!(KeytrnkSmmMtyaMMl於客Ul嫁1B上述解释涉及到了一些高阶函数思想。每去调用DalaSlream上的一个转换时，都需要给它传递的个参数。换句话说，转换决定了你想劝这个数据进行怎

33、样的操作,而实际传递的包在算子里面的函数决定了转换操作具体要怎样完成。上图中，除了左边列出来的API,FlinkDataStreamAPl里面还有两个非常重要的功能，它们是PrOCeSSFUnCtiOn以及COProCeSSFUnCtiOnl,这两个函数是作为最底层的处理逻辑提供给用户使用的。上图所有左侧蓝色涉及的转换，理论上来讲都可以用底层的ProcessFunction和COPrOCeSSFUnCtiOn去完成。（二）关于数据分区数据分区是指在传统的批处理中对数据Shuffle的操作。如果把扑克牌想成数据，传统批处理里的Shuffle操作就相当于理牌的过程。一般情况下在抓牌过程中，我们都会

34、把牌理顺排列好，相同的数字还要放在一起。这样做最大的好处是，出牌时可以下子找到想出的牌。Shuffle是传统的批处理的方式。因为流处理所有的数据都是动态来的，所以理睥的过程或者说处理数据，进行分组或分区的过程，也是在线来完成的。数据分区(ShUffIe)批处理-Shuffle流处理-Partition例如上图右侧所示，上游有两个算子A的处理实例，下游是三个算子B处理实例。这里展示的流处理等价于Shuffle的操作被称为数据分区或数据路由。它用来表示A处理完数据后，要把结果发到下游B的哪个处理实例上。()Flink里提供的分区策略图X是Flink提供的分区策略。需要注意的是，DataStream

35、调用keyBy方法后，可以把整个数据按照一个Key值进行分区。但要严格来讲，其实keyBy并不算是底层物理分区策略，而是一种转换操作，因为从APl角度来看，它会把DataStream转化成KeyedDataStream的类型，而这两者所支持的操作也有所不同。ApacheFlink分区策略dataStream.keyByO按照Keyffi分区dataStream.global()全部发往第1个实例dataStream.broadcst()11adataStream.forwardO上下游并行度一样时一对一发送dataStream.shuffle()随机均匀分配dataStream.rebalan

36、ceORound-Robin(轮砌8)dataStream.rescale()1.ocalRound-Robin（本地轮流分配）dataStream.partitionCustom()自定义单羯所有这些分区策略里，稍微难理解的可能是RescaleoRescale涉及到上下游数据本地性的问题，它和传统的Rebalance,即Round-Pobin,轮流分配类似。区别在于Rescale是它会尽量避免数据跨网络的传输。如果所有上述的分区策略都不适用的话，我们还可以自己调用PartitionCustom去自定义一个数据的分区。值得注意的是，它只是自定义的单播，即对每一个数据只能指定它一个下游所要发送的

37、实例，而没有办法把它复制成多份发送到下游的多个实例中。（四）Flink支持的连接器上文介绍过，图X里有两个关键的节点：A节点，需要去连接外部系统，从外部系统把数据读取到Flink的处理集群里：C节点，即Sink节点，它需要汇总处理完的结果，然后把这个结果写入到某个外部系统里。这里的外部系统可以是一个文件系统，也可以是一个数据库等。ApacheFlinkFlink连接器外部系统：文件系统、数据库、消息队列SoUrCe是否支持监测并接入更新(Dynamicorstatic)Sink是否支持更新已有结架(Append-onlyorsupportupdate)Aohe仙nCommuniyhfC81H!

38、tflFlink里的计算逻辑可以没有数据输出，也就是说可以不把最终的数据写出到外部系统，因为Flink里面还有一个State的状态的概念。在中间计算的结果实际上是可以通过State暴露给外部系统，所以允许没有专门的Sinko但每一个Flink应用都肯定有SoUrCe,也就是说必须从某个地方把数据读进来，才能进行后续的处理。关于SoUrCe和Sink两类连接器需要关注的点如下:对于SoUrSC而言，我们往往比较关心是否支持续监测并接入数据更新，然后把相应的更新数据再给传输到这个系统当中来。举例来说，Flink对于文件有相应的FileSystem连接器，例如CSV文件。CSV文件连接器在定义时，可以通过参数指定是否持续监测某个目录的文件变化，并接入更新后的文件。对于Sink来讲，我们往往关心要写出的外部系统是否支持更新已经写出的结果。比如要把数据写到Kafka里，通常情况下数据写入是一种Ap