58同城大数据开发校招一二面面经
一面(10.27):
1.项目
2.为什么数仓要分层,维度建模过程,什么是粒度
3.三范式都是什么,举一个违反第三范式的例子
4.维度建模里的桥接表了解吗
5.星形模型和雪花模型的区别,分别什么时候用
6.MR任务流程,发生数据倾斜怎么解决
7.排序算法了解哪几种,冒泡、归并排序原理和时间复杂度
二面(10.28):
1.MapReduce任务流程
(1)有什么方法能控制map的个数吗
(2)了解map阶段负责本行数据读取的组件叫什么吗
(3)map在每行数据处理完之后还有什么流程
(4)map方法执行完的数据会流向哪,怎么输入到的磁盘的
(5)数据溢写到磁盘的过程中还有哪些操作吗,溢写磁盘前的排序是基于什么进行排序,排序的目的是什么,保证分区内有序的目的是什么
(6)map阶段除了直接溢写完之后还有哪些组件是运用在这个阶段的吗
(7)map下一个过程是什么,shuffle是做什么的
(8)reduce的流程
2.使用MR实现在一个大文件里找出最大的前两千个数字,文件的每一行数据都是一个数字,怎么实现
3.上述问题如果用Java程序怎么实现,文件是本机文件大概有十几个G
4.用MR实现数据的全局排序思路
5.数仓的各层有什么作用
6.Flume往Kafka写数据的时候怎么保证数据不丢
7.Hive的mapjoin是什么,小表在实现mapjoin时会以什么数据结构存在
8.Hive内部表和外部表的区别
9.Hive计算表里的所有不重复的用户id个数怎么计算
10.突然开始唠家常,当前有在实习吗,开始毕业设计了吗,现在还有课程吗,在校还是在家,家在学校的城市吗,不在校的时间学校怎么安排的,有计划考研或者保研吗,保研需要专业前多少,你成绩不错为什么不考个xx或者xx大学研究生(我们那边的985),什么时候能来实习还是打算毕业再来
11.看你是学软件工程的,软件工程的东西还记得吗,了解过测试相关的工作吗
12.学过哪些数据结构,二叉树是做什么用的
13.数据库三范式是什么
二面问的很细尤其MR,有些问题答的不是很好,个人感觉总体还可以。二面两周之后官网状态显示面试未通过,一直觉得挺可惜的。
#面经##58集团##面试题目#