美团 大数据开发 暑期实习 一面
时长:1h
由于问题太多,分四类进行整理
0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式
1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);HDFS的读写流程;Spark shuffle的过程(不太了解,只讲了个大概)
2. java基础的问题:HashMap底层原理(链表+数组 & 红黑树);又问了对红黑树的了解,能讲个大概原理就行,对细节要求不高
3. 数据库问题:数据库的索引的数据结构(这个不太了解);ACID;数据三范式(1NF, 2NF, 3NF)
做题:
1. sql题:从成绩表中得到总成绩排名第三的学生id和成绩;将表中一列转换成一行(e.g. 表属性为[dt, col1, col2], 转换为[dt, key, value], 其中key为col1,value为col1列中所有数据)
2. 快速排序(快排出场率真的好高)
3. 海量数据题:从两个数据量50亿的文件中得到相同url(hash写到多个小文件+hashmap)
#面经# #大数据# #暑期实习#
由于问题太多,分四类进行整理
0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式
1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);HDFS的读写流程;Spark shuffle的过程(不太了解,只讲了个大概)
2. java基础的问题:HashMap底层原理(链表+数组 & 红黑树);又问了对红黑树的了解,能讲个大概原理就行,对细节要求不高
3. 数据库问题:数据库的索引的数据结构(这个不太了解);ACID;数据三范式(1NF, 2NF, 3NF)
做题:
1. sql题:从成绩表中得到总成绩排名第三的学生id和成绩;将表中一列转换成一行(e.g. 表属性为[dt, col1, col2], 转换为[dt, key, value], 其中key为col1,value为col1列中所有数据)
2. 快速排序(快排出场率真的好高)
3. 海量数据题:从两个数据量50亿的文件中得到相同url(hash写到多个小文件+hashmap)
#面经# #大数据# #暑期实习#
全部评论
兄弟是哪个部门的呀?
笔试五道题做出来几道?
美团大数据和鸡架都不捞我 哭死 投后端搞鸡架被说能力不匹配
hxd,笔试是什么题型分布啊?明天笔试
请问海量数据题是要写代码吗?还是说个思路就可以呀?
兄弟,有二面消息了没
相关推荐