spark出租车情况统计

spark udf练习

# -*- coding: UTF-8 -*-
from pyspark.sql import SparkSession
import json
if __name__ == '__main__':
    spark = SparkSession.builder.master("local").appName("demo").getOrCreate()
    #**********begin**********#
    df = spark.read.option("header", True).option("delimiter", "\t").csv("/root/data2.csv")
    # 1 将时间戳转换成时间 ，并将列名重命名为 TIME
    df.createTempView("data")
    spark.sql(
        "select TRIP_ID,CALL_TYPE,ORIGIN_CALL,TAXI_ID,ORIGIN_STAND,from_unixtime(TIMESTAMP,'yyyy-MM-dd') as TIME ,POLYLINE from data").show()
    # 2.1 计算每个行程总时长，以秒为单位，并将其作为新列，列名为 TIMELEN
    # 2.2 分离出起始位置与目的位置作为新列，起始位置列名为 STARTLOCATION，目的位置列名为 ENDLOCATION
    spark.udf.register("timeLen", lambda x: {
        (len(json.loads(x)) - 1) * 15 if len(json.loads(x)) > 0 else 0
    })
    spark.udf.register("startLocation", lambda x: {
        str(json.loads(x)[0]) if len(json.loads(x)) > 0 else ""
    })
    spark.udf.register("endLocation", lambda x: {
        str(json.loads(x)[len(json.loads(x)) - 1]) if len(json.loads(x)) > 0 else ""
    })
    spark.sql(
        "select TRIP_ID,CALL_TYPE,ORIGIN_CALL,TAXI_ID,ORIGIN_STAND,from_unixtime(TIMESTAMP,'yyyy-MM-dd') as TIME ,POLYLINE,timeLen(POLYLINE) as TIMELEN,startLocation(POLYLINE) as STARTLOCATION ,endLocation(POLYLINE) as ENDLOCATION  from data").createTempView(
        "data2")
    spark.sql("select * from data2").show()
    # 3 统计每天各种呼叫类型的数量并以CALL_TYPE,TIME升序排序
    spark.sql("select CALL_TYPE,TIME,count(1) as NUM from data2 group by CALL_TYPE,TIME order by CALL_TYPE,TIME").show()
    #**********end**********#

全部评论

推荐最新楼层

今天 11:13

成都信息工程大学前端工程师

小厂面经我太菜了这都不会

自我介绍，我介绍了我简历上的两个项目（简历可以看我前几篇文章评论区） 我专业是软工，面试官问为什么选择前端，答兴趣爱好 认为前端是干什么的，答是用户和后端沟通的桥梁之类的 这两个项目是个人项目还是团队项目 小程序项目有没有做适配，比如苹果顶部刘海之类的，答只做了顶部，没做底部 小程序怎样去获取页面栈数量的，答用uniapp的api 小程序调用用户地址接口需不需要授权，答需要进行配置才能调用接口 追问这个调用地址的接口是获取用户地址还是微信保存的地址信息，答保存的地址信息 做支付的时候需要注意的点，答了一个项目中设计的不好的地方 用户不扫码，或者扫码不支付怎么处理，答可以在订单列表页重新打开支付...

我的失利项目复盘面试中的破防瞬间

点赞评论收藏

02-13 14:39

腾讯_大数据高性能开发(准入职员工)

腾讯内推腾讯面经

分享面经（wxg 某团队----客户端开发）一面 （1个小时05分钟）30分钟的实习cpp的一些问题，比如如何利用windowsapi设计窗口，z型扫描，如何定位等问题（30分钟）1个小时后约复试二面（1个小时）20分钟实习之后看了看我的github，给面试官跑了一下之前自己开源的代码和博客。30分钟。10分钟 反转链表（好多次都写反转链表了哈哈）1个小时后约第二次复试三面30分钟实习（1小时50分钟）场景题 弹窗的设计以及大数据的处理。（跟之前的很像，我发现这些企业都爱考整体的架构设计，）要包括数据库和中间件的设计以及处理。（因为我实习和开源的东西用到过）1个小时20分钟智力题我是真没准备，...

点赞评论收藏

01-14 00:29

新乡学院 PCB工程师

这份简历能找到硬件类工作吗

浪子陪都：简历最优秀的地方放到了后面，国奖，校级奖学金这些是最亮眼的。说明你跟同级别的学生不一样。建议台灯这个，PCB布局布线这个词汇不专业，业内是PCB Layout，第二，单片机的板子一般不用考虑SI，PI 都是低速信号，只要遵循3W原则就好了。单片机的项目太low了，技能这块，你要看一下BOSS直聘的招聘要求，按照别人的要求写，一些关键词可以增加你简历被检索到的概率。主修课程不用写，这个没有人去关注的。

点赞评论收藏

02-11 17:47

已编辑

门头沟学院 Java

26届找实习

26届找实习，求评价，不玻璃心 #实习# #java# #简历#

神哥不得了：神哥来啦~建议先在网上找一些高频的八股去背，然后再去广泛的背八股，这样的学习会更有效率一些，简历的这两个项目建议换掉，换成两个高质量的项目，这样的话获得面试的比例会更高一点，专业技能的话排版要注意一下，要加句号的话就都加，要不加就都不加，荣誉奖项的话写在教育经历里边吧，这个确实没有太多的含金量