阿里、网易、美团、商汤科技大数据研发面经

秋招参加面试的公司不多，岗位均为大数据研发（本想刷刷百度、腾讯的面经，毕竟bat，无奈没有大数据岗位、投后台开发和数据挖掘都比较尴尬）。下面分享一下几个公司的面经：

阿里（5轮技术面+1轮HR面）：
阿里开始校招的时间最早，7月初就开始内推，到9月中旬才最终确定offer。由于战线比较长，前期没有记录具体的面经，就大概分享一下记得的吧。
首先项目，项目闪光点、优化点、涉及到的关键技术这些基本都会问，事先最好准备一下、如果有开源项目经验就更好。
语言方面，本人jvm系，熟悉java、scala语言。由于简历上写过熟悉jvm、jmm。因此，大多数面试官都问过java内存模型、gc回收算法、各种gc回收器的使用场景、类加载机制以及涉及到的一系列问题：volatile特性、主内存与工作内存交互、happen before原则、内存栅栏。。。
大数据方面：
mapreduce过程
hbase和传统数据库的区别
hbase读数据过程
hbase master和regionserver的交互
hbase的ha，zookeeper在其中的作用，master宕机的时候，哪些能正常工作，读写数据？region分裂？
数据倾斜
mysql索引，哪些索引？实现原理？哪些存储引擎支持B树索引，哪些支持hash索引？
为啥mysql索引要用B+树而MongoDB用B树？
Mysql查询优化？
主键和唯一索引的区别
事务的隔离机制，mysql默认是哪一级
MyISAM和InnoDB存储引擎的区别
mysql查询优化，慢查询怎么去定位？
mysql中的各种锁，乐观锁，悲观锁（排他锁，共享锁）；行锁，表锁是怎么实现的？
mapreduce支持哪些join，map端？reduce端？semi join？semi join你可以通过什么算法去优化？
mapreduce实现二次排序
用mapreduce实现两表join
用mapreduce实现一个存储kv数据的文件，对里面的v进行全量排序
zookeeper实现原理，zab协议以及原子广播协议
paxos协议，multi-paxos，zab，raft各种分布式协议内容，使用场景
hadoop namenode的ha，主备切换实现原理，日志同步原理，QJM中用到的分布式一致性算法（就是paxos算法）
spark运行架构
spark运行原理，从提交一个jar到最后返回结果，整个过程
spark的stage划分是怎么实现的？拓扑排序？怎么实现？还有什么算法实现？
spark rpc，spark2.0为啥舍弃了akka，而用netty?
spark的各种shuffle，与mapreduce的对比
spark的各种ha，master的ha，worker的ha，executor的ha，driver的ha,task的ha,在容错的时候对集群或是task有什么影响？
spark的内存管理机制，spark1.6前后对比分析
spark2.0做出了哪些优化？tungsten引擎？cpu与内存两个方面分别说明
spark rdd、dataframe、dataset区别
算法数据结构方面：
图怎么存的、有哪些图算法
红黑树怎么实现、如果树里面有两个值相等的节点，怎么识别？
一排正整数，每次只能去两头的数，甲乙两个人轮流取，如果甲先取，问最后谁取得数相加和最大，最大和为多少？典型博弈论问题（可以看看海盗分金问题），写了两个动态规划方程

最近看了什么书，有什么收获

给你几个月时间，你最想学什么技术，怎么学

你的优势是什么，怎么体现

美团（3轮技术面+1轮HR面）：
美团一面
项目
类加载过程（class文件到jvm这个过程）
内存泄露，哪些场景会出现
top k问题，有哪些实现方案
两串数字找同时出现的
B树索引
慢查询定位

美团二面
两个面试官，一个相当严肃，一看就是一个大佬。
熟悉spark源码？先讲讲？问他要了一直白纸，边将边画，应该讲了十几分钟被叫停了，说spark源码就讲到这儿
然后谈了谈项目
一个spark task运行很久，要2个小时，你怎么让它半小时完成？问题定位？问题解决？
spark里面有哪些参数可以设置？针对各个场景说明
两个数据集求并集
sql场景两道题，第一道，一张员工薪资表，找每个员工最近三次薪资的平均值，第二题，sql实现一张表的行列转换
手写kmp算法
浏览器输入一个网址到返回结果的整个流程

美团三面
二进制文本切割，文本中前两个字节是要给字符串的长度，然后将整个文本进行切割换行放入另一个文本。
说说你熟悉的加密算法
怎么快速统计出一个城市有多少家餐馆
讲讲最能代表你技术能力的项目
然后就和我将他们部门的业务

hr面：
了解一下学校、专业，实习情况，为啥从华为辞职。现在拿了哪些家的offer，期望薪资多少，如果阿里和美团都给你offer了，美团给你多钱你能来（这时我面过的最简单暴力的hr问题）

网易（2轮技术面+1轮HR面）

https://www.nowcoder.com/discuss/35389

商汤科技（4轮技术面）：
听人说去年商汤给几个拿bat普通sp的应届生开过60w，于是去试了试，很期待今年的薪资。
感觉商汤面试时间都把握的好准，每一面都是一个小时。

商汤科技一面
callable runnable 区别
synchronized与lock区别
类加载机制
gc算法
spark数据倾斜
spark shuffle
spark 内存管理
各种排序算法，时间复杂度，空间复杂度，spark和hadoop中shuffle中各个阶段用到的排序算法把这几种排序算法的使用场景表现得淋漓尽致啊。

商汤科技二面
项目
单机统计一个文本中一个单词相邻单词出现次数的topk?统计不相同数据的个数，布隆过滤器？spark、MR实现
类加载机制，双亲委派，加载时机
sparksql编码优化

spark里面的cbo
在华为实习的时候的开发流程，代码管理

商汤科技三面：
先谈了一下之前提交的spark特性，没想到这个面试官也做过，作为了商汤的私有特性。然后交流了一下，发现他实现的方案更优。原来这个面试官是在商汤里面做图像算法并行化的，通过spark平台实现，或是直接mpp编程。然后了解到他做spark优化是更底层，直接通过C实现，就是我们看源码里面那个native文件夹下面的代码，瞬间膜拜了。
手撸代码：
第一题：数组最大子串累加和，动态规划经典题目，然后实现其分布式算法，假设这个数组被存储在不同的partition中，partition中数据以partitionid实现排序，通过rdd分布式实现这个算法
第二题：用mapreduce实现kmeans算法
操作系统内存分配
linux 中top命令的用处，返回值中每个参数的意义
用过java调用c代码吗？jni?产生的.so动态连接文件有什么作用？
aggregateByKey函数原型？执行流程？

商汤科技四面
手撸代码：
第一题：从一个rdd中过滤出另一个rdd的数据
第二题：求一个数组中累加和在一个区间的种数
进程线程区别
hashMap和treeMap的区别，以及实现

concurrenthashmap怎么实习同步？各个版本的实现方案？
hdfs读取流程，小文件处理

#阿里巴巴##网易##美团#