小米未来星数据算法研究员一面凉
提前批就此结束,安心转正了,我太菜了。给大家一个建议,如果在实习期间没准备好真的没必要参加提前批,浪费双方时间。别到最后竹篮打水一场空。
一面,很多问题忘了,过程中完全被碾压
1 自我介绍
2 Hive与Spark区别,为什么使用Spark而不使用Hive
3 Spark常使用的参数,当读取HDFS时有一个文件过大,读取报错,添加什么参数可以解决,小文件使用的参数,如何解决数据倾斜,主要想问源码。
4 常使用的spark参数,spark源码中一些groupbykey,aggregateByKey,groupbykey源码及其区别
5 怎么保证在spark运行阶段动态分配所需的资源,需要添加什么参数,这里问题太多,很多新版本参数我根本不会
6 Flink与Spark的区别,Flink的源码相关,各自的容错机制,基本思想,一次语义,源码如何实现
7 Hadoop,Spark都使Yarn,介绍一下YARN,执行过程。
8 DBSCA,NLP相关算法知识,Elasticsearch倒排索引,给一篇论文如何存储
9 数据结构各种排序问题,堆排序,快排序,二分查找问题,完全二叉树相关问题
10 实习的时候主要负责的工作,用到了什么算法,数据挖掘相关,模型的设计
11 手撕代码,计算两个整数的差的绝对值,不能使用减法、负号、位运算(固定时间写完,并进行优化)。
12 反问环节,个人总结基本问的都是大数据源码,数据挖掘算法相关,没准备好,很多问题我也给忘记了。