摘要数据工程的全流程(数仓建设-数据接入-数据运维-数据分析-数据挖掘)的各个阶段都有涉及...自我介绍,问了我在百度和蔚来做的工作(数仓),对简历项目中对数据倾斜的发现、解决方法和效果回答是通过sparkUi中task的输入量和运行时间发现,解决方法是用count估算不同维度下各value的数据条目,然后数量最多的top key进行再赋值后与其他表join感觉这个地方可以从spark运行机制上讲数据倾斜造成的后果,以及面试官特别在意选取选取多少纬度值进行打乱的逻辑...难道是28原则?继续追问数据分层的原因,ods dws dwd的区别(概念还是不清晰) 2. 解释xgboost...