滴滴大数据面试题汇总(持续更新)

  1. Spark Streaming面试题

    • 什么是Spark Streaming?它与Spark有什么不同?
    • Spark Streaming如何处理离线数据?
    • 什么是DStream(离散数据流)?如何创建一个DStream?
    • 什么是RDD(弹性分布式数据集)?
    • 如何将已有的RDD转换为DStream?
    • 过滤器转换器(Filter Transformers)是什么?在Spark Streaming中有哪些可用的过滤器转换器?
    • 什么是窗口操作?如何使用它们?
    • 什么是输出操作?在Spark Streaming中有哪些可用的输出操作?
    • 你在处理数据时遇到了内存问题,你该如何处理?
    • 在处理数据时,你发现处理速度很慢,你该如何优化它?
    • Spark Streaming在哪些行业中得到广泛应用?
    • 什么是数据重复?Spark Streaming如何处理重复数据?
    • 什么是延迟(Latency)?如何减少延迟?
    • Spark Streaming与Kafka的集成是如何实现的?
    • Spark Streaming可以如何处理实时大数据处理的问题?
    • 什么是数据突发(Data Spikes)?如何处理突发的数据流?
    • 什么是容错性(Fault Tolerance)?Spark Streaming如何保证容错性?
    • 什么是累加器(Accumulators)?在Spark Streaming中有哪些可用的累加器?
    • 批处理和实时处理有什么区别?Spark Streaming是批处理还是实时处理?
    • 什么是Spark应用程序?如何使用Spark应用程序?
  2. 滴滴数据开发面试题

    • 4道SQL题,主要是关于实际业务问题,涉及多个表的子查询和一些函数。
    • join中条件写on和where里面的区别。
    • MapReduce过程中的溢写过程是什么样?
    • 数据倾斜是什么?容易发生在Map段的哪个部分,应该怎么处理数据倾斜的问题?
    • 会不会Spark,Spark和MapReduce的区别,为什么Spark比MapReduce快?
  3. 滴滴校招面试真题

    • 给定一个整数数组,求该数组中任意两个不同元素之间的最大差值。
  4. 滴滴核心数仓面试题

    • SLA破线怎么预防和感知?

**********************

#大数据面试题##滴滴#
全部评论

相关推荐

首先自我介绍,然后I.上来就是两道中等的sql题目:1.SELECT   CASE     WHEN name_count > 1 THEN CONCAT(d.name, s.name)    ELSE s.name  END AS display_nameFROM (  SELECT sp.*, COUNT(*) OVER (PARTITION BY sp.name) AS name_count  FROM student_profile sp) sJOIN department d ON s.department_id = d.id;唯一记录的一条sql,我感觉有小问题,但是感觉面试官很急。我想改他直接说赶紧下一个。为什么select里面用的别名不能直接用到同一个语句中,我回答sql执行顺序的问题,以及在hive中会报错,未找到相应的名字。他笑了,我的回答错了???whateverIII. 考了spark shuffle 的过程,非常的细节,怎么给partition分区?我的回答:spark.default.parallelism,通常等于集群的 CPU 核心数,默认值为 200。或者读取文件时指定分区数。然后这里他又笑了,内心os:这位大佬是微笑大使。IV. 他让我直接写ods 和 dwd 层建模的过程!这一考法我有点不理解要考什么,有木有大佬给我解答一下(感谢)。虽然我写了一部分,但是有的还是忘了。V. 考了我HTTP中reception的作用,不知道这里是不是我听错了,我说能再说一遍吗?他说没时间了,今天就这样吧。总结:自我介绍我太简略了?我想着他手上有我的简历,他好像对我的实习经历有点不感兴趣,因为他说我介绍的时候都是业务层面的?Interview time:One Hour中间还有一些,我就没写了。。。#如何判断面试是否凉了##大家都开始春招面试了吗##数据人的面试交流地##牛客AI配图神器#
点赞 评论 收藏
分享
评论
1
9
分享

创作者周榜

更多
牛客网
牛客企业服务