百度数据研发暑期1面

1.说下之前实习经历,以及都使用了什么样的技术栈
2.说下MR和spark的区别,为什么spark会更快,说下两者shuffle的区别
3.ReduceByKey和GroupByKey区别
4.Mysql怎么处理大数据量下的性能问题,了解过分库,分表吗
5.说下了解哪些mysql的索引
6.如果枚举值不多的情况下,数据量有几百万的数据,这种情况下用哪种索引合适一些
7.如果是两个枚举值的话呢?比如说性别,了解过bitmap吗
8.说一下物化视图和视图
9.说一下星型模型和雪花模型
10.什么情况用星型模型,什么时候适合用雪花模型
11.事实表记录着什么样的数据
12.累计快照事实表,周期快照事实表
13.说一下缓慢变化维
14.说一下拉链表的整个数据表结构是什么样

两道linux命令 两道sql
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务