大数据工程师面试 Flink 知识点 - 时间语义

1. Flink时间语义的理解

Flink提供了三种时间语义,以满足不同计算场景的需求:处理时间,事件时间和注入时间。

•处理时间(Processing Time):一种直观的时间语义,表示数据进入算子并开始处理的实际时间点。•事件时间(Event Time):表示事件实际发生的时间,通常在消息的时间戳字段中找到。由于可能会有数据乱序的问题,但它能保证精确度高的计算场景。•注入时间(Ingestion Time):介于处理时间和事件时间之间的折中选择,代表数据进入Flink处理系统的时间。这方面的细节问题较少被询问。

2. 理解时间语义的应用场景和优势

每种时间语义都有其独特的使用场景和优势。

•处理时间:适用于对时间顺序不敏感的应用,由于无需跟踪或等待事件的发生时间,可以更简单快速的处理。•事件时间:适用于精确计数的场景,如数据重放过程中,事件时间可以确保数据的窗口计算不出错。•注入时间:这个应用场景较少,与处理时间相比较类似。

3. Flink 的 Watermark 应该如何使用?

在 Apache Flink 中,watermark (水印)是用来处理被延迟和乱序的事件时间戳数据。通过设置和使用 watermark,可以允许 Flink 的时间窗口延迟关闭和计算,直到收到的 watermark 时间戳大于窗口的结束时间。这就意味着只有我们确定所有早于 watermark 时间的数据都已经处理了,才会触发窗口的计算。 当处理流数据时,首选需要指定使用事件时间语义,并提供自定义的 watermark 生成器。在 Flink 的 DataStream API 中,可以使用 assignTimestampsAndWatermarks 方法来指定 watermark 生成逻辑。例如:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);DataStream<MyEvent> stream = env.addSource(new MyEventSource());DataStream<MyEvent> withTimestampsAndWatermarks =    stream.assignTimestampsAndWatermarks(new MyAssigner());

在上述代码中,MyAssigner 就是我们自定义的 watermark 生成器。实现这个生成器需要重写两个方法:extractTimestamp 提取事件的时间戳,getCurrentWatermark 生成 watermark。

有大数据面试相关问题欢迎评论区提问或者找我交流!

#大数据##大数据工程师##大数据知识体系##大数据面试##大数据面经#

解决职场真实面试问题,分享同学真实成功案例,欢迎订阅关注!

全部评论

相关推荐

jack_miller:我给我们导员说我不在这里转正,可能没三方签了。导员说没事学校催的时候帮我想办法应付一下
点赞 评论 收藏
分享
11-08 13:58
门头沟学院 Java
程序员小白条:竟然是蓝桥杯人才doge,还要花钱申领的offer,这么好的公司哪里去找
点赞 评论 收藏
分享
1 收藏 评论
分享
牛客网
牛客企业服务