2022-05-09 美团大数据开发暑期实习一面
相互自我介绍
数据怎么落到数仓里的?做了哪些加工处理?最后怎么给到应用层的?
mock出来的数据是怎么抽取过来的?抽取过来的数据存到哪了?
在这个过程中数据是怎么处理的?
项目中的数仓分层觉得是合理吗?
写入外存,为什么选择Redis、HBase、ClickHouse
数仓为什么要进行分层
在此之前接触过数据仓库吗
数据仓库和数据库有什么区别
粒度和维度是一个事情吗?它们有什么区别?比如说我们有一张订单表,订单表里可能会记录订单id、用户id、门店id、订单金额、支付时间等,表的粒度是什么?可以从哪些维度分析这张表?
数据仓库的主题概念了解吗?
离线数仓的经验,离线数仓和实时数仓的区别
实时数仓的准确性如何保证?如果数据不准确的话可能是什么原因导致数据不准确?集群保证稳定的情况下哪些环节会丢数据?
大概讲一下MapReduce的工作过程
整个MapReduce工作过程中有几次排序操作?用到的排序方法是一样的吗?
平时有用到关系型数据库吗?
美团日志数据--大表--关系型数据库大表查询性能优化
索引的概念,MySQL的索引实现方式,B+树索引和哈希索引的对比
case:美团日志信息表,用户id、时间、页面id、性别、年龄,这个表在哪些字段上建立索引比较合适?在性别上建立索引合适吗?
Hive处理数据的时候遇到过什么问题?数据倾斜
数据倾斜怎么产生?
为什么不同数据类型的关联会产生数据倾斜?
数据倾斜有哪些解决办法?
Hive转换成MR任务之后是怎么体现出来数据倾斜的?怎么从MR层面去解决数据倾斜?
所有场景都适合MapJoin吗
做两个题:
归并排序
SQL列转行、行转列、平均分大于90分的学生、每科排名第一名的学生
- 反问