2019-07-24 17:51 已编辑华为_2012实验室_Java工程师

关注

基于Spark的机器学习实践 (三) - 实战环境搭建

0 相关源码

1 Spark环境安装

◆ Spark 由scala语言编写,提供多种语言接口,需要JVM

◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译

◆ Spark安装不难,配置需要注意,并且不一定需要Hadoop环境

下载
解压

tar zxvf spark-2.4.1-bin-hadoop2.7.tgz

2 Spark配置

◆ 在配置前尽量先阅读官方文档,避免直接从网上找配置教程

◆ 要为节点设置好使用的内存,否则可能导致节点利用率低;

◆ 注意spark中IP与端口号的配置,以免UnknownHostException

官网配置

应用默认配置
配置文件
复制两份模板,开启自行配置

单机环境配置

本地IP

shell进行验证

bin/spark-shell

3 Spark shell

◆ Spark shell是一个bash脚本,在./bin目录下

◆ Spark shell 为我们事先配置好了上下文(context) 和会话(session)

context实例
session实例
UI

4 实战Wordcount

4.1 Wordcount简介

◆ Wordcount
词频统计,是大数据分析中最为基础的一种任务
英文分词较容易,直接分割空格即可。

◆ 实现思路
首先将文件中所有的单词提取出来,然后合并相同单词

实现示意图

项目搭建

添加spark jar包
全选jar包,先左键选中第一个,再拉到最后shift,再左键最后一个实现全选.
新建类
测试文件

`pwd`/`ls |grep L`

编写函数
运行成功
打包
移除这些多余的jar包
构建
将jar包放到spark/bin目录下使用 Spark-submit 运行

Spark机器学习实践系列

全部评论

推荐最新楼层

11-21 15:10

华南农业大学运营

领导让我以后别叫他哥

领导让我以后别叫他哥 此时一个从小被教育一生都要大大方方懂礼貌的东北人悄悄的碎了… 我以后该怎么叫他啊…

牛客602221609号：工作的时候称职务

点赞评论收藏

分享

昨天 11:04

门头沟学院 Java

双非二本java后端的“海市蜃楼”

前言：真的很折磨，投递4个月，boss沟通1200多家以及中大厂官网各种投简历，最后只有5面，已经累了，总算是在12月之前拿到一个满意的offer了。 双非二本要是java后端起步太晚（大二下学期才开始）或者没有过硬的奖项和项目还是考虑转吧，我是大一开学就决定走java后端，当时天真的以为只要踏踏实实的就可以找到满意的offer，现在看来，有时候选择>>努力。以我投了4个月的心得来看在没有实习经历前中大厂基本不会给面试的机会，“9分运气1分实力”在此刻具象化了，在刚开始投简历的时候我也曾以为java后端都可以像牛客上的大佬人手至少一份大厂offer,未曾想时间击碎了这虚...

Astraia：就算是幸存者偏差之下的人也都没有一蹴而就的成功，一步一步往上爬吧，总不能失去做梦的勇气

双非有机会进大厂吗找工作，你会甘心进小厂还是猛冲大厂

点赞评论收藏

分享

11-13 19:59

中南大学自动化

秋招癫的不止我公司也癫了

我孙子来都做不完了

Noob1024：一笔传三代，人走笔还在

点赞评论收藏

分享

10-08 14:04

门头沟学院测试开发

东子你。。

就这样水灵灵塞了一个意向到邮件里了我都没发现，刚刚上邮箱想下载下文件才发现了timeline：8.4测评8.28一面8.29二面9.2三面10.8oc京东零售做中间件相关/底层/全栈测试 #京东求职进展汇总#

京东求职进展汇总

点赞评论收藏

分享

11-20 09:10

电子科技大学前端工程师

腾讯校招新人入职体验

工作节奏上，入职一个半月后，事情开始多了起来。从最开始负责的小项目，到现在独立开发整个项目。工作时间大概是上午10点到12点，下午2点到5点半或者6点，大家都不想太卷，也不想太水。工作内容主要是坐在工位上写代码，需求大部分来自我的mentor。现在我在做一些提效工具，慢慢也开始参与到对外的业务中。工作压力嘛，基本上没有，部门氛围很轻松，没什么营收压力，项目也不急着上线。最近参加了不少公司活动，比如公益节、司庆活动等等，还是蛮有意思的，大家一起玩，氛围还可以

腾讯成长空间 449人发布

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

275665次浏览 2362人参与

# 如果实习可以转正，你会不会放弃秋招 #

205786次浏览 2804人参与

# 北方华创开奖 #

24305次浏览 262人参与

# 地方国企笔面经互助 #

3169次浏览 7人参与

# 学历or实习经历，哪个更重要 #

46718次浏览 365人参与

# 选完offer后，你后悔学本专业吗 #

16065次浏览 120人参与

# 如何一边实习一边秋招 #

988749次浏览 12620人参与

# 数据人的面试交流地 #

436079次浏览 7810人参与

# 软开人，秋招你打算投哪些公司呢 #

41262次浏览 533人参与

# 0offer是寒冬太冷还是我太菜 #

891768次浏览 7956人参与

# 得物求职进展汇总 #

64579次浏览 672人参与

# 求职遇到的搞笑事件 #

68885次浏览 570人参与

# 你觉得专业和学校哪个对薪资影响最大 #

28792次浏览 215人参与

# 你最想要的公司福利是？ #

43090次浏览 157人参与

# 查收我的offer竞争力报告 #

20925次浏览 262人参与

# 没有实习经历，还有机会进大厂吗 #

808472次浏览 13872人参与

# 来聊聊机械薪资天花板是哪家 #

67171次浏览 453人参与

# 当你面对裁员会如何？ #

26442次浏览 154人参与

# 一觉醒来，我觉醒了超级打工人系统 #

3521次浏览 36人参与

# 应届生被毁约被毁意向了怎么办 #

28731次浏览 244人参与

# 面试体验感最好的是哪家？ #

84069次浏览 821人参与

牛客网
牛客企业服务