百度数据研发暑期1面
1.说下之前实习经历,以及都使用了什么样的技术栈
2.说下MR和spark的区别,为什么spark会更快,说下两者shuffle的区别
3.ReduceByKey和GroupByKey区别
4.Mysql怎么处理大数据量下的性能问题,了解过分库,分表吗
5.说下了解哪些mysql的索引
6.如果枚举值不多的情况下,数据量有几百万的数据,这种情况下用哪种索引合适一些
7.如果是两个枚举值的话呢?比如说性别,了解过bitmap吗
8.说一下物化视图和视图
9.说一下星型模型和雪花模型
10.什么情况用星型模型,什么时候适合用雪花模型
11.事实表记录着什么样的数据
12.累计快照事实表,周期快照事实表
13.说一下缓慢变化维
14.说一下拉链表的整个数据表结构是什么样
两道linux命令 两道sql
2.说下MR和spark的区别,为什么spark会更快,说下两者shuffle的区别
3.ReduceByKey和GroupByKey区别
4.Mysql怎么处理大数据量下的性能问题,了解过分库,分表吗
5.说下了解哪些mysql的索引
6.如果枚举值不多的情况下,数据量有几百万的数据,这种情况下用哪种索引合适一些
7.如果是两个枚举值的话呢?比如说性别,了解过bitmap吗
8.说一下物化视图和视图
9.说一下星型模型和雪花模型
10.什么情况用星型模型,什么时候适合用雪花模型
11.事实表记录着什么样的数据
12.累计快照事实表,周期快照事实表
13.说一下缓慢变化维
14.说一下拉链表的整个数据表结构是什么样
两道linux命令 两道sql
全部评论
相关推荐
点赞 评论 收藏
分享