Apache Flink实战(二) - 第一个Flink应用程序

动手搭建Flink的开发环境,快速使用Java和Scala语言开发第一个基于Flink的批处理和流式处理的应用程序。

相关源码

下载安装

brew install apache-flink

1 需求描述

Flink开发批处理应用程序

需求:词频统计(word count)

一个文件,统计文件中每个单词出现的次数
分隔符是\t
统计结果我们直接打印在控制台(生产上肯定是Sink到目的地)

实现:

Flink + Java
Flink + Scala

2 Java开发之环境准备

2.1 Maven构建

2.1.1 Requirements

唯一的要求是Maven 3.0.4(或更高版本)和 Java 8.x 安装

2.1.2 Create Projec

使用以下命令之一创建项目

maven archetype

 $ mvn archetype:generate                               \
      -DarchetypeGroupId=org.apache.flink              \
      -DarchetypeArtifactId=flink-quickstart-java      \
      -DarchetypeVersion=1.8.0

这允许您为新创建的项目命名。 它将以交互方式询问您groupId,artifactId和包名称。

Run the quickstart script

  $ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.8.0

2.1.3 Inspect Project

您的工作目录中将有一个新目录。 如果您使用了curl方法,则该目录称为quickstart。 否则,它具有artifactId的名称:

使用IDEA打开该项目即可!

示例项目是一个Maven项目,它包含两个类:StreamingJob和BatchJob是DataStream和DataSet程序的基本框架程序。
主要方法是程序的入口点,既可用于IDE测试/执行,也可用于正确部署。
建议将此项目导入IDE以进行开发和测试。 IntelliJ IDEA支持开箱即用的Maven项目。
不建议Eclipse

请注意:对于Flink,Java的默认JVM堆可能太小。 你必须手动增加它。在IntelliJ IDEA中,推荐的更改JVM选项的方法来自Help | 编辑自定义VM选项菜单 -Xmx800m

2.1.4 Build Project

如果要构建/打包项目,请转到项目目录并运行

mvn clean package

或者使用插件

您将找到包含应用程序的JAR文件,以及可能已作为依赖项添加到应用程序的连接器和库:

target / <artifact-id>  -  <version> .jar

注意:如果您使用与StreamingJob不同的类作为应用程序的主类/入口点,我们建议您相应地更改pom.xml文件中的mainClass设置。 这样,Flink可以从JAR文件运行应用程序,而无需另外指定主类。

3 公式型编程

  • step 1 : set up the batch execution environment
  • step 2 : Start with getting some data from the environment, like
env.readTextFile(textPath);
  • step 3 : 开发业务逻辑的核心代码
    transform the resulting DataSet using operations,like
.filter()
.flatMap()
.join()
.coGroup()
  • step 4 : execute program

4 Flink批处理应用Java开发之功能实现

  • 在相应的目录下建立文本

  • 测试代码

  • 成功读取

4.1 功能拆解

1)读取数据

Hello JavaEdge

2)每一行的数据按照指定的分隔符拆分

Hello
JavaEdge

3)为每一个单词赋上次数为1

(Hello,1)
(JavaEdge,1)

4) 合并操作

groupBy

  • 代码
  • 结果

5 Scala开发之环境准备

  • 要求与Java环境基本类似,不再赘述

  • Maven构建

6 批处理应用Scala功能实现

  • 实现代码
  • 内容正确打印

7 实时处理应用Java开发之功能实现

  • 代码

可能遇到拒绝连接,记得

nc -lk 9999
  • 清除运行结果

  • socket数据

  • 结果

9 Flink实时处理应用Java开发之代码重构

如何才能突破端口被限制呢,需要如下重构:

  • 传入参数args
  • 获得参数

10 实时处理应用Scala开发之代码重构

11 开发过程中依赖的注意事项

Configuring Dependencies, Connectors, Libraries

每个Flink应用程序都依赖于一组Flink库。 至少,应用程序依赖于Flink API。 许多应用程序还依赖于某些连接器库(如Kafka,Cassandra等)。 运行Flink应用程序时(在分布式部署中或在IDE中进行测试),Flink运行时库也必须可用。

X 交流学习

Java交流群

博客

Github

全部评论

相关推荐

不愿透露姓名的神秘牛友
昨天 18:05
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-02 18:35
简历上把1个月实习写成了3个月,会进行背调吗?
码农索隆:一个月有一个月的实习经历,三个月有三个月的实习经历
简历当中有水分算不算造假...
点赞 评论 收藏
分享
07-01 23:23
郑州大学 Java
否极泰来来来来:牛客迟早有高三的
点赞 评论 收藏
分享
06-27 12:54
已编辑
门头沟学院 Java
累了,讲讲我的大学经历吧,目前在家待业。我是一个二本院校软件工程专业。最开始选专业是觉得计算机感兴趣,所以选择了他。本人学习计算机是从大二暑假结束开始的,也就是大三开始。当时每天学习,我个人认为Java以及是我生活的一部分了,就这样持续学习了一年半,来到了大四上学期末,大概是在12月中旬,我终于找的到了一家上海中厂的实习,但我发现实习生的工作很枯燥,公司分配的活也不多,大多时间也是自己在自学。就这样我秋招末才找到实习。时间来到了3月中旬,公司说我可以转正,但是转正工资只有7000,不过很稳定,不加班,双休,因为要回学校参加答辩了,同时当时也是心高气傲,认为可以找到更好的,所以放弃了转正机会,回学校准备论文。准备论文期间就也没有投递简历。然后时间来到了5月中旬,这时春招基本也结束了,然后我开始投递简历,期间只是约到了几家下场面试。工资也只有6-7k,到现在我不知道该怎么办了。已经没有当初学习的心劲了,好累呀,但是又不知道该干什么去。在家就是打游戏,boss简历投一投。每天日重一次。26秋招都说是针对26届的人,25怎么办。我好绝望。要不要参加考公、考研、央国企这些的。有没有大佬可以帮帮我。为什么感觉别人找工作都是顺其自然的事情,我感觉自己每一步都在艰难追赶。八股文背了又忘背了又忘,我每次都花很长时间去理解他,可是现在感觉八股、项目都忘完了。真的已经没有力气再去学习了。图片是我的简历,有没有大哥可以指正一下,或者说我应该走哪条路,有点不想在找工作了。
码客明:太累了就休息一下兄弟,人生不会完蛋的
如果实习可以转正,你会不...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务