8月汇总大数据开发面经，顺丰，贝壳，阿里，快手，京东，网易

前言:

记录一下8月秋招情况，八月初开始一直进行笔试面试，几乎每天都有，从七月面试凉了后（上篇帖子有面经）就开始海投（投了70家左右了），大致的进展如下，感觉今年池子尤其的深。

岗位：大数据开发，数据开发（熟悉离线相关的，Spark和Flink了解一点点）

给面试的：顺丰科技，贝壳找房，菜鸟网络，快手科技，京东，网易云，一点资讯，有赞，VIPKID，小米，腾讯pcg后端，跟谁学，滴滴，美团，58转转，美的，哔哩哔哩。
笔试没消息（挂的）：拼多多，欢聚，搜狗，映客直播，携程，柠檬微趣，老虎证券，科大讯飞，爱奇艺，携程，4399，小红书等等好多。
简历挂的：猿辅导，百度，作业帮，好未来，搜狐，海康威视等等。
还有一点消息都没有的：网易雷火，网易游戏，虎牙，斗鱼，搜狐畅游，触宝，用友，度小满金融等。

面试时好多会看简历问，简历上写的一定要知道，面经只是参考，有些知识经常问到的可能是我简历写的

面经:

--------------------------------------------------------------------------------------------------------
顺丰科技
--------------------------------------------------------------------------------------------------------
项目介绍，用到啥，做了那些事情，技术选型，项目遇到的问题，难点,优化等
Kylin的优势，存储在哪里，Presto，Druid区别
Hive的执行引擎mr，Tez，Spark，mr和Tez问题，适合什么场景，Tez底层，数据倾斜
Hbase的rowkey设计
Java基础，线程上下问切换，资源消耗问题
垃圾回收算法
Shuffle的过程
Group by 和 Order by 执行过程
Group by 和 Distinct的区别
数仓相关
--------------------------------------------------------------------------------------------------------
贝壳
--------------------------------------------------------------------------------------------------------
1.数据仓库相关，主要是问项目中的，项目中数仓相关，为什么分层，维度建模，什么是维度
2.数据倾斜解决
3.写SQL（用rank 函数,做的）
4.写SQL（连表，然后group by做）
5.kylin，构建，还有优化
6.写下面的执行顺序
select，from，where ，group by ，having，order by ，limit
7.Hive的优化
--------------------------------------------------------------------------------------------------------
菜鸟
--------------------------------------------------------------------------------------------------------
1.大表关联出现数据倾斜，怎么做，大表和小表，mapjoin的方式，原理
2.对数仓，数据建设了解
3.SQL，学生选课，找出至少选了语文，数学，英语这三门课的学生，上亿时，怎么做（比如选了语文-数学-化学）
4.两个数字交换，没有额外空间
5.Oracle连接方式
6.数据维度建模，建模模型
7.hive的优化策略，SQL书写的优化，hive平台的优化
8.数据倾斜有处理过没有
9.数据倾斜发生的原因
10.HiveSQL转换为MR过程
11.HDFS组成，几个进程，解释一下，HDFS有好几种存储文件类型，底层文件结构，客户端和datanode通信协议
12.数组和链表对比
13.用过哪些查找算法，排序算法，排序最好是
14.死锁的条件
15.项目，难点
--------------------------------------------------------------------------------------------------------
快手
--------------------------------------------------------------------------------------------------------
1.说一下shuffle过程
2.分区是根据啥分区的，自定义分区
3.数据倾斜产生，做join的倾斜问题，map join 的原理，调整map数和reduce数，怎么调
4.数仓整个过程，项目相关
5.HashMap的实现
6.快速排序实现，时间复杂度，稳定性。
7.区间合并的题，LeetCode
8.java基础封装继承多态
9.集合相关，list和map那些
10.线程相关，数据库相关
11.HDFS，MR，Hive
12.项目介绍
13.现在有大学考试成绩如下表A：id，subject，score，找出每一科都是这一科前30%的学生的id
--------------------------------------------------------------------------------------------------------
网易云大数据
--------------------------------------------------------------------------------------------------------
1.adoop存储，MR和shuffle，reduce分三个阶段，你怎么分，资源调度
2.Hive执行流程（SQL转MR过程）
3.ZK的原理 paxos一致性算法
4.进程和线程区别
5.内存模型
6.锁的机制，什么时候用到锁，
7.翻转字符串
8.括号字符串的有效性
9.问项目，问一下数据建设情况，可视化用的什么技术
10.对Kylin的了解，Cube的优化，减少膨胀率
11.写SQL，我记得一个是用rank求排名的，一个是用explode函数，把数组炸裂开，让一行变多行的，然后连表
12.hive优化相关，SQL书写优化，连表优化等，hive的调参数优化等
13.HBase，写数据流程
--------------------------------------------------------------------------------------------------------
京东
--------------------------------------------------------------------------------------------------------
1.项目
2.数据库的原理，关系型数据库理论知识
3.数据仓库相关
4.数仓建模
5.累计快照事实表
--------------------------------------------------------------------------------------------------------
一点资讯
--------------------------------------------------------------------------------------------------------
1 JVM，内存，堆内存，新生代和老年代。
2 private protected public 三个
3 集合，hashmap和hashTable。聊了聊hashMap，到红黑树，又问到赫夫曼树
4 多线程的yield()，具体讲一下,wait,notify
5 讲一下MR的流程，结合word count。讲一下shuffle
6 了解yarn吗，几个角色的作用。大概说一下，到Spark的Yarn，问宽窄依赖
7 Hive分区，分桶，内部表和外部表
8 给你两个表，如何用MR实现两个表的笛卡尔乘积
9 手写代码：快速排序，
10 HiveSQL：第一天登录的，第二天也登陆的
11 mr的流程，mr和Spark的区别
12 Spark的数据倾斜问题和解决方法
13 数据仓库模型
--------------------------------------------------------------------------------------------------------
有赞
--------------------------------------------------------------------------------------------------------
1.HDFS架构，角色，干啥的，请求上传数据的流程
2.namenode的瓶颈，当文件非常多，存储瓶颈是？
3.1TB数据，top 10单词，不能用mr和spark，描述下思路
4.整个MR的shuffle过程，为什么要shuffle
5.Kylin的了解有多少，组成，构建原理，Cube构建的优化手段，HBase rowkey设计原则，Kylin整个结构大的模块那些，数据源，计算引擎这些
6.员工表，求截止当天连续打卡天数
7.思维相关，三个连续自然数，大于6，其中两个为质数，求证，其中必有一个可以被6整除
8.大数据框架搭建过哪些，实时做过哪些，
9.JAVA，接触到设计模式，单例，钩子，装饰者模式，静态代理模式
10.线程实现方式，Thread，Runnable,Callable和FutureTask，线程池，线程池方式
11.锁相关，sync，lock类，
12.虚拟机的结构，
13.垃圾回收方法
14.什么情况下，会手动调用System.gc()
15.对数仓的了解，Kylin的精确去重，
16.volatile说一下，和底层实现（这这这我不知道）
17.求根号2，
18.Kylin具体在HBase是咋存储的，cuboid+维度值，KV存储原理
19.8个球，有一个重一点，2次找出来，3+3+2这样
20.合并两个有序数组
21.HashMap说一下，put，还有1.8做的优化这些
--------------------------------------------------------------------------------------------------------
VIPKID
--------------------------------------------------------------------------------------------------------
1.StringBuffer 和 String
2.垃圾回收算法，分代回收
3.红黑树定义，优势，是否是绝对平衡
4.链表和数组的区别
5.数据库三范式，drop，delete，truncate区别说一下
6.ConcurrentHashMap，和HashMap区别
7.HDFS相关，HA高可用
8.Flume把物理机内存占用比较高，怎么优化
9.ZK的选举机制，一致性算法
10.类加载机制
11.写代码，数组反转，求二叉树的前序遍历，二叉树的最大路径和
12.做的项目，主要做啥
13.SQL优化
14.Kafka架构，生产，消费等

祝大家能收获心仪的offer，觉得有用的点赞，收藏支持一下，谢谢。

#秋招##面经##校招##数据开发工程师##阿里巴巴##顺丰科技##贝壳找房##大数据开发工程师#