Apache Flink实战(二)-第一个Flink应用程序

动手搭建Flink的开发环境,快速使用Java和Scala语言开发第一个基于Flink的批处理和流式处理的应用程序。

相关源码

下载安装

brew install apache-flink

1 需求描述

Flink开发批处理应用程序

需求:词频统计(word count)

一个文件,统计文件中每个单词出现的次数
分隔符是\t
统计结果我们直接打印在控制台(生产上肯定是Sink到目的地)

实现:

Flink + Java
Flink + Scala

2 Java开发之环境准备

2.1 Maven构建

2.1.1 Requirements

唯一的要求是Maven 3.0.4(或更高版本)和 Java 8.x 安装

2.1.2 Create Projec

使用以下命令之一创建项目

maven archetype

 $ mvn archetype:generate                               \
      -DarchetypeGroupId=org.apache.flink              \
      -DarchetypeArtifactId=flink-quickstart-java      \
      -DarchetypeVersion=1.8.0

这允许您为新创建的项目命名。 它将以交互方式询问您groupId,artifactId和包名称。

Run the quickstart script

  $ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.8.0

2.1.3 Inspect Project

您的工作目录中将有一个新目录。 如果您使用了curl方法,则该目录称为quickstart。 否则,它具有artifactId的名称:

使用IDEA打开该项目即可!

示例项目是一个Maven项目,它包含两个类:StreamingJob和BatchJob是DataStream和DataSet程序的基本框架程序。
主要方法是程序的入口点,既可用于IDE测试/执行,也可用于正确部署。
建议将此项目导入IDE以进行开发和测试。 IntelliJ IDEA支持开箱即用的Maven项目。
不建议Eclipse

请注意:对于Flink,Java的默认JVM堆可能太小。 你必须手动增加它。在IntelliJ IDEA中,推荐的更改JVM选项的方法来自Help | 编辑自定义VM选项菜单 -Xmx800m

2.1.4 Build Project

如果要构建/打包项目,请转到项目目录并运行

mvn clean package

或者使用插件

您将找到包含应用程序的JAR文件,以及可能已作为依赖项添加到应用程序的连接器和库:

target / <artifact-id>  -  <version> .jar

注意:如果您使用与StreamingJob不同的类作为应用程序的主类/入口点,我们建议您相应地更改pom.xml文件中的mainClass设置。 这样,Flink可以从JAR文件运行应用程序,而无需另外指定主类。

#uc##Uber##读书笔记##Java#
全部评论

相关推荐

1、自我介绍2、Agent项目是实习项目还是个人项目?有没有上线?3、拷打实习(10min)4、大模型微调,你的训练数据集是如何构建的?数据量有多大?5、在构建数据集的过程中,遇到了哪些挑战?花了多长时间?6、你之前的实习经历偏后端工程,你未来的职业规划更倾向于纯后端开发,还是希望从事与AI/大模型结合的工作?7、详细讲一下Golang中Channel的概念和作用,它是否是并发安全的?8、Channel和传统的锁(Mutex)在实现并发控制时有什么区别?各自的适用场景是什么?9、讲一下GMP模型10、当P的本地队列为空或者不为空时,它会怎么去调度G(协程)?11、Redis支持哪些数据结构12、为什么Redis的速度这么快13、如何实现一个类似淘宝搜索框的实时商品名称模糊搜索功能?14、实时输入联想与输入完成后点击搜索在技术实现上有什么本质区别?15、实时搜索通常使用什么网络协议(如WebSocket)?你了解或有使用过吗?讲一下16、请详细说明微信扫码登录的完整流程和背后发生的原理17、在微服务架构中,服务发现和负载均衡是如何实现的?18、服务注册中心(如Nacos,&nbsp;Consul)是如何工作的?服务实例如何注册和保活(如通过心跳机制)?19、讲一下Agent中的“长短期记忆”20、什么样的信息应该放在长期记忆,什么样的信息放在短期记忆?21、当对话轮数很多,上下文窗口不足时,有哪些处理策略?(如截断、压缩)22、如果要进行记忆压缩,通常有哪些方法?23、了解过Agent的设计范式吗?有哪些?24、你设计的Agent是怎么实现ReAct模式的?详细讲讲25、手撕:实现一个并发任务处理器:给定一个包含100个任务ID的列表,要求控制最大并发数为3,模拟并发调用某个外部接口(如打印ID)26、反问
三本咋了:很好的面筋
查看24道真题和解析
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务