抖音电商大数据开发一面--面经
抖音电商大数据开发一面--面经
不知道是凉是热,不记录,过几天就忘记了。
场景题
-
遇到的数据倾斜有哪些,怎么处理的,可以多展开讲一下,数据膨胀之类的。
-
有一个10g的文件,但内存只有1g,文件里存储的是pv访问日志,没条数据有一个md5字符串表示用户id,问如何统计访问次数前100的用户(经典题目了,不管你改成什么样,化成灰我都认识你)
-
一个热key,关联一个数据量比较小的key,有什么好的方式(具体题目我忘了,大概是这么个意思,还是经典题目)
-
两个超级热的key关联有什么方法(翻译过来问的就是这个,还是经典题目,如果有实际处理经验的话还是容易的)
-
如果小文件过多会有什么问题(我从存储和调度两方面说的,不知道合不合适)
概念题
-
spark是怎么执行的(我自己只回答了job->stage->task的大致过程,其余的忘了,之后就是接着问了stage是怎么划分的)
-
hadoop读写数据的流程
SQL
就一道比较正常的求连续的问题,只不过最后要选出一个最大值
算法
出了个力扣的mid,33. 搜索旋转排序数组
#字节跳动##面经#