闲敲code落灯花

2020-12-27 20:15 上海交通大学算法工程师

关注

SparkSQL文本处理语句

将长文本按空格进行划分

A dataframe clauses_df with 100 rows is provided. It has a column clause and a row id. Each clause is a string containing one or more words separated by spaces.
Split the clause column into a column called words, containing an array of individual words.

split_df = clauses_df.select(split('clause', ' ').alias('words'))

Explode the words column into a column called word.

exploded_df = split_df.select(explode('words').alias('word'))

Repartition 修改程序并行度

repart_df = text_df.repartition(12, 'chapter')

词频统计并从大到小排序

Our objective is to create a dataset where each row corresponds to a 5-tuple, having a count indicating how many times the tuple occurred in the dataset.

query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(word,2) OVER(partition by part order by id ) AS w2,
   LEAD(word,1) OVER(partition by part order by id )AS w3,
   LAG(word,1) OVER(partition by part order by id ) AS w4,
   LAG(word,2) OVER(partition by part order by id ) AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC
LIMIT 10 """
df = spark.sql(query)
df.show()

获取词频数最高的一行记录、交叉引用

#统计词频数并在组内进行排序
subquery = """
SELECT chapter, w1, w2, w3, COUNT(*) as count
FROM
(
    SELECT
    chapter,
    word AS w1,
    LEAD(word, 1) OVER(PARTITION BY chapter ORDER BY id ) AS w2,
    LEAD(word, 2) OVER(PARTITION BY chapter ORDER BY id ) AS w3
    FROM text
)
GROUP BY chapter, w1, w2, w3
ORDER BY chapter, count DESC
"""

#获取每组内词频数最大的对应的记录
#   Most frequent 3-tuple per chapter
query = """
SELECT chapter, w1, w2, w3, count FROM
(
  SELECT
  chapter,
  ROW_NUMBER() OVER (PARTITION BY chapter ORDER BY count DESC) AS row,
  w1, w2, w3, count
  FROM ( %s )
)
WHERE row = 1
ORDER BY chapter ASC
""" % subquery #交叉引用

spark.sql(query).show(3)

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-11 17:10

花钱改简历被骂了

什么素质，我请问呢，要掉小珍珠了。。。又憋屈又生气

苍蓝星上艾露：

给它们能的，一群dinner牛马挥刀向更弱者罢了。我写的开源求职AI co-pilot工具，优化你的简历，找到你匹配的岗位，定制你的简历，并让你做好面试准备https://github.com/weicanie/prisma-ai

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-09 16:27

感谢公司，通勤路上骑共享小黄车都有劲儿了

今天上班来公司领黄金了像小学生期待春游一样期待公司十周年活动早上还没出门看到全员群发的推送送黄金？每人都有？好的，咱也是有金子的人了

聊聊这家公司值得去吗

点赞评论收藏

分享

06-24 17:38

已编辑

哈尔滨工业大学产品经理

26硕找实习找了三个月，至今0offer

我愿称为实习悖论➡️大公司实习经历不够➡️小公司说我稳定性差（实习时长我只能3个月，还要回尔滨秋招）求大佬帮看看简历🙏求推荐的岗位🙏工资一点要求都没有，自费实习我都愿意全国可飞，租房子实习

vicky_023：先说能干六个月进去了再润呗太老实啦

0offer是寒冬太冷还...

点赞评论收藏

分享

07-03 13:32

门头沟学院产品经理

这简历居然拿了wxg

突然看到一年半前的简历，当时的我做梦都不敢想自己会拿到wxg offer吧，虽然因为职业规划不符拒了，但还是很开心被认可。

siestaaaaa...：哥们这么帅直接干直播吧，别走弯路了

投递腾讯等公司7个岗位

点赞评论收藏

分享

07-11 11:14

门头沟学院产品经理

各个招聘软件海投了简历，突然有个自称快手的hr加我，越聊越感觉怪怪的，请问靠谱吗？

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 大厂面试初体验 #

331次浏览 11人参与

# 如果可以，你希望哪个公司来捞你 #

99429次浏览 426人参与

# 如何提高实习转正率？ #

246次浏览 7人参与

# leader认为你工作不认真怎么办 #

30153次浏览 135人参与

# 国企是理工四大天坑的最好选择吗 #

13348次浏览 94人参与

# 我的国央企投递进展 #

46179次浏览 288人参与

# 五一之后，实习真的很难找吗？ #

78102次浏览 514人参与

# 如果公司给你放一天假，你会怎么度过？ #

16695次浏览 128人参与

# 机械人，你被简历秒挂的企业有哪些？ #

42622次浏览 280人参与

# 总结:哪家公司面试体验感最差 #

60801次浏览 276人参与

# 三一重工求职进展汇总 #

14670次浏览 67人参与

# 你遇到过哪些神仙同事 #

99895次浏览 720人参与

# 找工作时的取与舍 #

80207次浏览 567人参与

# 通信/硬件公司求职体验 #

123999次浏览 865人参与

# 投递几十家公司，到现在0offer，大家都一样吗 #

245662次浏览 1788人参与

# 工作一周年分享 #

30939次浏览 184人参与

# 在国企工作的人，躺平了吗？ #

343654次浏览 3881人参与

# 我和mentor的爱恨情仇 #

58312次浏览 350人参与

# 技术岗笔试题求解 #

78201次浏览 1012人参与

# OPPO求职进展汇总 #

662464次浏览 5037人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务