8月汇总大数据开发面经,顺丰,贝壳,阿里,快手,京东,网易
前言:
记录一下8月秋招情况,八月初开始一直进行笔试面试,几乎每天都有,从七月面试凉了后(上篇帖子有面经)就开始海投(投了70家左右了),大致的进展如下,感觉今年池子尤其的深。
岗位:大数据开发,数据开发(熟悉离线相关的,Spark和Flink了解一点点)
给面试的:顺丰科技,贝壳找房,菜鸟网络,快手科技,京东,网易云,一点资讯,有赞,VIPKID,小米,腾讯pcg后端,跟谁学,滴滴,美团,58转转,美的,哔哩哔哩。
笔试没消息(挂的):拼多多,欢聚,搜狗,映客直播,携程,柠檬微趣,老虎证券,科大讯飞,爱奇艺,携程,4399,小红书等等好多。
简历挂的:猿辅导,百度,作业帮,好未来,搜狐,海康威视等等。
还有一点消息都没有的:网易雷火,网易游戏,虎牙,斗鱼,搜狐畅游,触宝,用友,度小满金融等。
笔试没消息(挂的):拼多多,欢聚,搜狗,映客直播,携程,柠檬微趣,老虎证券,科大讯飞,爱奇艺,携程,4399,小红书等等好多。
简历挂的:猿辅导,百度,作业帮,好未来,搜狐,海康威视等等。
还有一点消息都没有的:网易雷火,网易游戏,虎牙,斗鱼,搜狐畅游,触宝,用友,度小满金融等。
面试时好多会看简历问,简历上写的一定要知道,面经只是参考,有些知识经常问到的可能是我简历写的
面经:
--------------------------------------------------------------------------------------------------------
顺丰科技
--------------------------------------------------------------------------------------------------------
项目介绍,用到啥,做了那些事情,技术选型,项目遇到的问题,难点,优化等
Kylin的优势,存储在哪里,Presto,Druid区别
Hive的执行引擎mr,Tez,Spark,mr和Tez问题,适合什么场景,Tez底层,数据倾斜
Hbase的rowkey设计
Java基础,线程上下问切换,资源消耗问题
垃圾回收算法
Shuffle的过程
Group by 和 Order by 执行过程
Group by 和 Distinct的区别
数仓相关
--------------------------------------------------------------------------------------------------------
贝壳
--------------------------------------------------------------------------------------------------------
1.数据仓库相关,主要是问项目中的,项目中数仓相关,为什么分层,维度建模,什么是维度
2.数据倾斜解决
3.写SQL(用rank 函数,做的)
4.写SQL(连表,然后group by做)
5.kylin,构建,还有优化
6.写下面的执行顺序
select,from,where ,group by ,having,order by ,limit
7.Hive的优化
--------------------------------------------------------------------------------------------------------
菜鸟
--------------------------------------------------------------------------------------------------------
1.大表关联出现数据倾斜,怎么做,大表和小表,mapjoin的方式,原理
2.对数仓,数据建设了解
3.SQL,学生选课,找出至少选了语文,数学,英语这三门课的学生,上亿时,怎么做(比如选了语文-数学-化学)
4.两个数字交换,没有额外空间
5.Oracle连接方式
6.数据维度建模,建模模型
7.hive的优化策略,SQL书写的优化,hive平台的优化
8.数据倾斜有处理过没有
9.数据倾斜发生的原因
10.HiveSQL转换为MR过程
11.HDFS组成,几个进程,解释一下,HDFS有好几种存储文件类型,底层文件结构,客户端和datanode通信协议
12.数组和链表对比
13.用过哪些查找算法,排序算法,排序最好是
14.死锁的条件
15.项目,难点
--------------------------------------------------------------------------------------------------------
快手
--------------------------------------------------------------------------------------------------------
1.说一下shuffle过程
2.分区是根据啥分区的,自定义分区
3.数据倾斜产生,做join的倾斜问题,map join 的原理,调整map数和reduce数,怎么调
4.数仓整个过程,项目相关
5.HashMap的实现
6.快速排序 实现,时间复杂度,稳定性。
7.区间合并的题,LeetCode
8.java基础封装继承多态
9.集合相关,list和map那些
10.线程相关,数据库相关
11.HDFS,MR,Hive
12.项目介绍
13.现在有大学考试成绩如下表A:id,subject,score,找出每一科都是这一科前30%的学生的id
--------------------------------------------------------------------------------------------------------
网易云大数据
--------------------------------------------------------------------------------------------------------
1.adoop存储,MR和shuffle,reduce分三个阶段,你怎么分,资源调度
2.Hive执行流程(SQL转MR过程)
3.ZK的原理 paxos一致性算法
4.进程和线程区别
5.内存模型
6.锁的机制,什么时候用到锁,
7.翻转字符串
8.括号字符串的有效性
9.问项目,问一下数据建设情况,可视化用的什么技术
10.对Kylin的了解,Cube的优化,减少膨胀率
11.写SQL,我记得一个是用rank求排名的,一个是用explode函数,把数组炸裂开,让一行变多行的,然后连表
12.hive优化相关,SQL书写优化,连表优化等,hive的调参数优化等
13.HBase,写数据流程
--------------------------------------------------------------------------------------------------------
京东
--------------------------------------------------------------------------------------------------------
1.项目
2.数据库的原理,关系型数据库理论知识
3.数据仓库相关
4.数仓建模
5.累计快照事实表
--------------------------------------------------------------------------------------------------------
一点资讯
--------------------------------------------------------------------------------------------------------
1 JVM,内存,堆内存,新生代和老年代。
2 private protected public 三个
3 集合,hashmap和hashTable。聊了聊hashMap,到红黑树,又问到赫夫曼树
4 多线程的yield(),具体讲一下,wait,notify
5 讲一下MR的流程,结合word count。讲一下shuffle
6 了解yarn吗,几个角色的作用。大概说一下,到Spark的Yarn,问宽窄依赖
7 Hive分区,分桶,内部表和外部表
8 给你两个表,如何用MR实现两个表的笛卡尔乘积
9 手写代码:快速排序,
10 HiveSQL:第一天登录的,第二天也登陆的
11 mr的流程,mr和Spark的区别
12 Spark的数据倾斜问题和解决方法
13 数据仓库模型
--------------------------------------------------------------------------------------------------------
有赞
--------------------------------------------------------------------------------------------------------
1.HDFS架构,角色,干啥的,请求上传数据的流程
2.namenode的瓶颈,当文件非常多,存储瓶颈是?
3.1TB数据,top 10单词,不能用mr和spark,描述下思路
4.整个MR的shuffle过程,为什么要shuffle
5.Kylin的了解有多少,组成,构建原理,Cube构建的优化手段,HBase rowkey设计原则,Kylin整个结构大的模块那些,数据源,计算引擎这些
6.员工表,求截止当天连续打卡天数
7.思维相关,三个连续自然数,大于6,其中两个为质数,求证,其中必有一个可以被6整除
8.大数据框架搭建过哪些,实时做过哪些,
9.JAVA,接触到设计模式,单例,钩子,装饰者模式,静态代理模式
10.线程实现方式,Thread,Runnable,Callable和FutureTask,线程池,线程池方式
11.锁相关,sync,lock类,
12.虚拟机的结构,
13.垃圾回收方法
14.什么情况下,会手动调用System.gc()
15.对数仓的了解,Kylin的精确去重,
16.volatile说一下,和底层实现(这这这我不知道)
17.求根号2,
18.Kylin具体在HBase是咋存储的,cuboid+维度值,KV存储原理
19.8个球,有一个重一点,2次找出来,3+3+2这样
20.合并两个有序数组
21.HashMap说一下,put,还有1.8做的优化这些
--------------------------------------------------------------------------------------------------------
VIPKID
--------------------------------------------------------------------------------------------------------
1.StringBuffer 和 String
2.垃圾回收算法,分代回收
3.红黑树定义,优势,是否是绝对平衡
4.链表和数组的区别
5.数据库三范式,drop,delete,truncate区别说一下
6.ConcurrentHashMap,和HashMap区别
7.HDFS相关,HA高可用
8.Flume把物理机内存占用比较高,怎么优化
9.ZK的选举机制,一致性算法
10.类加载机制
11.写代码,数组反转,求二叉树的前序遍历,二叉树的最大路径和
12.做的项目,主要做啥
13.SQL优化
14.Kafka架构,生产,消费等
祝大家能收获心仪的offer,觉得有用的点赞,收藏支持一下,谢谢。
顺丰科技
--------------------------------------------------------------------------------------------------------
项目介绍,用到啥,做了那些事情,技术选型,项目遇到的问题,难点,优化等
Kylin的优势,存储在哪里,Presto,Druid区别
Hive的执行引擎mr,Tez,Spark,mr和Tez问题,适合什么场景,Tez底层,数据倾斜
Hbase的rowkey设计
Java基础,线程上下问切换,资源消耗问题
垃圾回收算法
Shuffle的过程
Group by 和 Order by 执行过程
Group by 和 Distinct的区别
数仓相关
--------------------------------------------------------------------------------------------------------
贝壳
--------------------------------------------------------------------------------------------------------
1.数据仓库相关,主要是问项目中的,项目中数仓相关,为什么分层,维度建模,什么是维度
2.数据倾斜解决
3.写SQL(用rank 函数,做的)
4.写SQL(连表,然后group by做)
5.kylin,构建,还有优化
6.写下面的执行顺序
select,from,where ,group by ,having,order by ,limit
7.Hive的优化
--------------------------------------------------------------------------------------------------------
菜鸟
--------------------------------------------------------------------------------------------------------
1.大表关联出现数据倾斜,怎么做,大表和小表,mapjoin的方式,原理
2.对数仓,数据建设了解
3.SQL,学生选课,找出至少选了语文,数学,英语这三门课的学生,上亿时,怎么做(比如选了语文-数学-化学)
4.两个数字交换,没有额外空间
5.Oracle连接方式
6.数据维度建模,建模模型
7.hive的优化策略,SQL书写的优化,hive平台的优化
8.数据倾斜有处理过没有
9.数据倾斜发生的原因
10.HiveSQL转换为MR过程
11.HDFS组成,几个进程,解释一下,HDFS有好几种存储文件类型,底层文件结构,客户端和datanode通信协议
12.数组和链表对比
13.用过哪些查找算法,排序算法,排序最好是
14.死锁的条件
15.项目,难点
--------------------------------------------------------------------------------------------------------
快手
--------------------------------------------------------------------------------------------------------
1.说一下shuffle过程
2.分区是根据啥分区的,自定义分区
3.数据倾斜产生,做join的倾斜问题,map join 的原理,调整map数和reduce数,怎么调
4.数仓整个过程,项目相关
5.HashMap的实现
6.快速排序 实现,时间复杂度,稳定性。
7.区间合并的题,LeetCode
8.java基础封装继承多态
9.集合相关,list和map那些
10.线程相关,数据库相关
11.HDFS,MR,Hive
12.项目介绍
13.现在有大学考试成绩如下表A:id,subject,score,找出每一科都是这一科前30%的学生的id
--------------------------------------------------------------------------------------------------------
网易云大数据
--------------------------------------------------------------------------------------------------------
1.adoop存储,MR和shuffle,reduce分三个阶段,你怎么分,资源调度
2.Hive执行流程(SQL转MR过程)
3.ZK的原理 paxos一致性算法
4.进程和线程区别
5.内存模型
6.锁的机制,什么时候用到锁,
7.翻转字符串
8.括号字符串的有效性
9.问项目,问一下数据建设情况,可视化用的什么技术
10.对Kylin的了解,Cube的优化,减少膨胀率
11.写SQL,我记得一个是用rank求排名的,一个是用explode函数,把数组炸裂开,让一行变多行的,然后连表
12.hive优化相关,SQL书写优化,连表优化等,hive的调参数优化等
13.HBase,写数据流程
--------------------------------------------------------------------------------------------------------
京东
--------------------------------------------------------------------------------------------------------
1.项目
2.数据库的原理,关系型数据库理论知识
3.数据仓库相关
4.数仓建模
5.累计快照事实表
--------------------------------------------------------------------------------------------------------
一点资讯
--------------------------------------------------------------------------------------------------------
1 JVM,内存,堆内存,新生代和老年代。
2 private protected public 三个
3 集合,hashmap和hashTable。聊了聊hashMap,到红黑树,又问到赫夫曼树
4 多线程的yield(),具体讲一下,wait,notify
5 讲一下MR的流程,结合word count。讲一下shuffle
6 了解yarn吗,几个角色的作用。大概说一下,到Spark的Yarn,问宽窄依赖
7 Hive分区,分桶,内部表和外部表
8 给你两个表,如何用MR实现两个表的笛卡尔乘积
9 手写代码:快速排序,
10 HiveSQL:第一天登录的,第二天也登陆的
11 mr的流程,mr和Spark的区别
12 Spark的数据倾斜问题和解决方法
13 数据仓库模型
--------------------------------------------------------------------------------------------------------
有赞
--------------------------------------------------------------------------------------------------------
1.HDFS架构,角色,干啥的,请求上传数据的流程
2.namenode的瓶颈,当文件非常多,存储瓶颈是?
3.1TB数据,top 10单词,不能用mr和spark,描述下思路
4.整个MR的shuffle过程,为什么要shuffle
5.Kylin的了解有多少,组成,构建原理,Cube构建的优化手段,HBase rowkey设计原则,Kylin整个结构大的模块那些,数据源,计算引擎这些
6.员工表,求截止当天连续打卡天数
7.思维相关,三个连续自然数,大于6,其中两个为质数,求证,其中必有一个可以被6整除
8.大数据框架搭建过哪些,实时做过哪些,
9.JAVA,接触到设计模式,单例,钩子,装饰者模式,静态代理模式
10.线程实现方式,Thread,Runnable,Callable和FutureTask,线程池,线程池方式
11.锁相关,sync,lock类,
12.虚拟机的结构,
13.垃圾回收方法
14.什么情况下,会手动调用System.gc()
15.对数仓的了解,Kylin的精确去重,
16.volatile说一下,和底层实现(这这这我不知道)
17.求根号2,
18.Kylin具体在HBase是咋存储的,cuboid+维度值,KV存储原理
19.8个球,有一个重一点,2次找出来,3+3+2这样
20.合并两个有序数组
21.HashMap说一下,put,还有1.8做的优化这些
--------------------------------------------------------------------------------------------------------
VIPKID
--------------------------------------------------------------------------------------------------------
1.StringBuffer 和 String
2.垃圾回收算法,分代回收
3.红黑树定义,优势,是否是绝对平衡
4.链表和数组的区别
5.数据库三范式,drop,delete,truncate区别说一下
6.ConcurrentHashMap,和HashMap区别
7.HDFS相关,HA高可用
8.Flume把物理机内存占用比较高,怎么优化
9.ZK的选举机制,一致性算法
10.类加载机制
11.写代码,数组反转,求二叉树的前序遍历,二叉树的最大路径和
12.做的项目,主要做啥
13.SQL优化
14.Kafka架构,生产,消费等
祝大家能收获心仪的offer,觉得有用的点赞,收藏支持一下,谢谢。