闲敲code落灯花

2020-12-27 20:15 上海交通大学算法工程师

关注

SparkSQL文本处理语句

将长文本按空格进行划分

A dataframe clauses_df with 100 rows is provided. It has a column clause and a row id. Each clause is a string containing one or more words separated by spaces.
Split the clause column into a column called words, containing an array of individual words.

split_df = clauses_df.select(split('clause', ' ').alias('words'))

Explode the words column into a column called word.

exploded_df = split_df.select(explode('words').alias('word'))

Repartition 修改程序并行度

repart_df = text_df.repartition(12, 'chapter')

词频统计并从大到小排序

Our objective is to create a dataset where each row corresponds to a 5-tuple, having a count indicating how many times the tuple occurred in the dataset.

query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(word,2) OVER(partition by part order by id ) AS w2,
   LEAD(word,1) OVER(partition by part order by id )AS w3,
   LAG(word,1) OVER(partition by part order by id ) AS w4,
   LAG(word,2) OVER(partition by part order by id ) AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC
LIMIT 10 """
df = spark.sql(query)
df.show()

获取词频数最高的一行记录、交叉引用

#统计词频数并在组内进行排序
subquery = """
SELECT chapter, w1, w2, w3, COUNT(*) as count
FROM
(
    SELECT
    chapter,
    word AS w1,
    LEAD(word, 1) OVER(PARTITION BY chapter ORDER BY id ) AS w2,
    LEAD(word, 2) OVER(PARTITION BY chapter ORDER BY id ) AS w3
    FROM text
)
GROUP BY chapter, w1, w2, w3
ORDER BY chapter, count DESC
"""

#获取每组内词频数最大的对应的记录
#   Most frequent 3-tuple per chapter
query = """
SELECT chapter, w1, w2, w3, count FROM
(
  SELECT
  chapter,
  ROW_NUMBER() OVER (PARTITION BY chapter ORDER BY count DESC) AS row,
  w1, w2, w3, count
  FROM ( %s )
)
WHERE row = 1
ORDER BY chapter ASC
""" % subquery #交叉引用

spark.sql(query).show(3)

全部评论

推荐最新楼层

11-24 18:27

广东轻工职业技术学院 Java

offer决赛圈：字节 or 百度

字节飞书绩效团队 (n+2) * 15 + 1k * 12 + 1w

点赞评论收藏

分享

11-24 08:35

湖南大学 Java

华为实习一月体验

首先，工位超大，双屏办公。再说伙食，真的很好吃，很对我的胃口。公司凝聚力很强，很团结。团队氛围也特别好，大家都很有活力也很专业，互相帮助。加班的话，也是有的，具体看项目和工作的进度。园区环境很漂亮，设施这些应该算顶配了，显得时候下来散散步很舒服

italentmailsys：你是说那个没有绿豆的绿豆汤吗

华为工作强度 817人发布

点赞评论收藏

分享

11-02 09:49

已编辑

货拉拉_测试(实习员工)

终于收到了，秋招唯一面试，两天速通！

双飞本，有实习经历，终于可以躺平了，结束秋招！！

热爱生活的仰泳鲈鱼求你们别卷了：没事楼主，有反转

查看图片

点赞评论收藏

分享

11-01 11:02

门头沟学院后端

终于到我捡漏啦！哈哈哈！11月要开始准备收割啦！

康8：是我疯了，还是大伙疯了

点赞评论收藏

分享

11-21 23:17

门头沟学院研发工程师

秋招可以暂告一个段落啦

上周腾讯开奖后，本来想这周把字节三面和叠纸的hr面面完再决定的，但是不是很想折腾了，叠纸后面还有高管面，感觉就算过了最后也不一定有鹅香，就直接不拖签三方了。七月底开始的秋招，投了将近百来家，初筛/笔试/复筛挂了将近一半，面试了应该有五六十场，也经历了不少压力面，其实早就倦怠了，8月高强度八股后就再也没看过八股，也不想刷题了，每天处于一种躺等面试的状态，就这样一直拖到11月，终于等到结果了。可以轮到鼠鼠来写经验分享咯：一、 稳住心态整个秋招流程中一定会经历各种心态崩了的时刻，比如：为什么我这么匹配这个岗位结果初筛挂了？为什么我笔试都做出来了把我挂了？为什么我都答上来了还是没通过面试？其实都是正常...

查看6道真题和解析

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

337509次浏览 3208人参与

# 我的实习求职记录 #

6075976次浏览 83582人参与

# 阿里云管培生offer #

38382次浏览 486人参与

# 地方国企笔面经互助 #

4722次浏览 12人参与

# 职场吐槽大会 #

89461次浏览 731人参与

# 选完offer后，你后悔学本专业吗 #

22280次浏览 159人参与

# 百度开奖 #

189768次浏览 1201人参与

# 如果有时光机，你最想去到哪个年纪？ #

22760次浏览 447人参与

# 如何一边实习一边秋招 #

998191次浏览 12677人参与

# 国企还是互联网，你怎么选？ #

89545次浏览 697人参与

# 腾讯求职进展汇总 #

197599次浏览 1649人参与

# bilibili求职进展汇总 #

33581次浏览 359人参与

215145次浏览 2535人参与

# 正在实习的你，几点下班 #

53703次浏览 396人参与

# 国央企薪资爆料 #

12698次浏览 93人参与

# 上班苦还是上学苦呢？ #

76525次浏览 698人参与

# 海康威视求职进展汇总 #

401329次浏览 3411人参与

# 学历or实习经历，哪个更重要 #

54462次浏览 427人参与

# 风评不好的公司，你会去吗？ #

20434次浏览 93人参与

# 入职第一天，你准备什么时候下班 #

21731次浏览 144人参与

# 招聘要求与实际实习内容不符怎么办 #

10879次浏览 277人参与

# 网易求职进展汇总 #

33661次浏览 289人参与

牛客网
牛客企业服务