👍_牛客网

6rt

02-20 16:11 门头沟学院算法工程师

关注

👍

查看原帖

点赞评论

04-11 22:09

佛山大学大数据开发工程师

科拉奥数据开发一面

说一下数仓项目的架构（离线和实时都问了）说一下数仓分层及其作用DWD层和DWS层的区别事实表有哪些，为什么要设置周期快照事实表说一下ADS层完成的比较难的需求及其实现（离线数仓的）说一下为什么在实时项目中加入Redis作为缓存说一下为什么使用LookUpJoinMapReduce的工作原理Hive怎么调优Flink水位线机制一道HiveSQL：假设有一张用户登录表，如何求出连续三天登录的用户反问：入职主要干啥简历中哪点吸引了你回答的怎么样个人感觉答的不是很好的：说一下ADS层完成的比较难的需求（这里我倒是说了一个，但是感觉面试官好像听得不是很懂的样子QWQ）Hive怎么调优（这个主要说了分组和...

数开小菜鸡__求offer版：hive调优可以从数据倾斜和小文件答。比如数据倾斜，开启mapjoin参数，开启skew-join参数，开启skew-groupby参数等等比如小文件，小文件可能是动态分区插入导致的，开启动态分区参数，并开启动态合并小分区参数; 开启动态识别小文件参数，并设置小文件平均大小的阈值，以及合并后文件的大小等等

查看14道真题和解析

点赞评论收藏

04-22 22:28

门头沟学院数据其它

今日面试题记录

1.Spark架构1、使用spark-submit命令提交Spark作业时，如果指定为YARN Client模式，那么就会在本地运行启动Driver进程。2、Driver启动后向ResourceManager建立通讯申请启动ApplicationMaster；3、ResourceManage 接收到这个请求后，就会在集群中选一个合适的 NodeManager并分配一个Container资源容器，在这个Container中启动ApplicationMaster。4、ApplicationMaster启动之后，向ResourceManager建立通讯并申请额外的Container用于运行Executor进程。ResourceManager基于集群状况继续分配Container给NodeManager。5、然后ApplicationMaster对指定的NodeManager发出启动Executor进程请求。6、Executor进程启动后会向Driver反向注册，全部注册完成后，Driver开始执行解析执行提交的spark应用程序的代码(SparkContext),构建DAG有向无环图，当执行到行动算子，就会触发Job，由DAG调度器根据宽窄依赖从后往前划分stage，划分完毕之后，每个Stage有多个task，这些任务被组织成形成task集合发送给任务调度器,最后将Task发送到对应的Executor执行。7、spark应用程序运行完成后，ApplicationMaster向ResourceManager申请注销自己并释放相关资源。2. yarn提交流程(包括提交流程， 资源调度三种模型) yarn提交流程1.客户端通过yarn jar命令或API向ResourceManager提交作业申请启动ApplicationMaster。(RM返回一个Application ID作为作业的唯一标识)2.RM收到请求后，分配一个Container资源容器到NM，在Container中启动AM。AM负责作业的生命周期管理，包括资源协商和任务监控。3.AM启动之后向RM申请运行任务所需的资源（如CPU、内存）。RM根据调度策略（如Capacity/Fair）分配资源，返回NM位置信息。4.然后AM与NodeManager通信，在分配的容器中启动任务（如MapTask\ReduceTask）。5.任务完成后，AM向RM注销并释放资源。资源调度三种模型  yarn-site.xml设置答：分别是先进先出调度器、容量调度器、公平调度器,先进先出调度器的资源分配策略就是按作业提交顺序分配资源，先到先得。但是在多用户环境下，如果有大作业先提交，可能会导致小作业长时间等待，所以资源利用率比较低，不利于它的资源的高效共享，适用于作业提交顺序有严格要求，且对资源共享要求不高的场景。容量调度器资源分配策略是将集群资源划分成多个队列，每个队列配置一定比例的集群资源，队列之间相互独立，每个队列内部采用先进先出或者优先级调度资源。在多用户环境下，不同用户的作业可以提交到不同队列，可以避免单个大作业占用全部资源而其他用户作业长时间等待的情况，提高资源利用率，适用于有一定资源隔离需求，希望保障不同用户或作业组基本资源份额的场景。公平调度器资源分配策略是让所有正在运行的作业公平地共享集群资源。动态灵活分配资源，当新作业提交时，会尽量为其分配与已运行作业相当的资源量，实现作业之间的公平性。在多用户环境中，无论作业大小，都能获得相对公平的资源使用机会，防止小作业被大作业长时间阻塞。如果某个用户没有作业运行，其资源会被其他有作业的用户临时借用，进一步提高了资源的利用率。公平调度器适用于多用户环境下对资源公平性要求较高，希望资源能高效共享的场景。3.数仓怎么分层、每层作用职责回答：传统的数仓主要就是分五层 ODS数据贴源层  ，DIM维度层 ，DWD明细数据层，DWS汇总数据层，ADS 数据应用层1.数据贴源层，数仓架构的最底层，根据表的数据量级和更新频率选择增量/全量同步策略从业务操作系统中抽取数据，几乎不做修改，储存原始的数据副本。2.DIM维度层就是整合多源系统中的维度属性（如客户服务系统、外部数据源系统、催收管理系统等），存放一致性维度信息表。3.DWD层就是先对ODS层的数据进行数据清洗转换操作来保持基本的可用健康数据，然后采用维度建模方法，以业务过程为建模驱动，基于每个具体的业务过程，构建最细粒度的明细层事实表，并且结合业务数据使用特点，将维度表的某些属性字段退化到事实表，减少关联成本，提高模型易用性。4.DWS层基于上层应用需求，对DWD层数据进行多维度聚合指标加工，生成公共粒度的汇总指标表，为上层提供各种开箱即用的汇总指标。5.ADS 数据应用层是数据仓库架构中的上层，通过整合DWD层明细数据和DWS层汇总指标数据为业务端、管理层直接提供业务高度聚合、场景化的数据服务，比如数据查询分析报告、业务报表可视化展示等。6.DM数据集市层：针对特定的业务部门或主题领域，从 DWD 层、DWS 层或其他相关数据源中提取、整合和汇总数据。它是一个面向特定应用场景的数据集合，具有较高的针对性和易用性，能够快速满足特定业务部门的数据分析需求，例如销售数据集市、财务数据集市等。

查看5道真题和解析

点赞评论收藏

04-02 22:00

重庆邮电大学大数据开发工程师

滴滴大数据研发实习（已OC）

3.31 一面 27min自我介绍聊了会儿天，确认我的实习时间职业规划是什么项目介绍，为数不多让我把两个项目都介绍一下的数仓分层的好处项目中如何保证数据可靠性的？项目中任务如何调度的？（crontab 定时脚本）这样的任务调度有问题吗？该如何优化spark的优化sql：给定一个学生成绩表列转行求课程成绩的排序反问：部门业务和技术栈对实习生的要求是什么多久出结果下午2点面，下午5点通知一面通过，约4.1二面4.1 二面 30min自我介绍谈谈自己想做的一个方向（面试官详细的给我介绍了数据相关的一个体系）掌握的技术，做过实时的项目吗？（回答没有，但了解一点）了解实时相关技术的程度？项目中数据可靠性...

查看18道真题和解析滴滴求职进展汇总

点赞评论收藏

04-23 14:11

门头沟学院大数据开发工程师

数开暑期实习美团点评事业部数仓还是腾讯cdg金融科技风控数仓

美团点评事业部已经offer确认中，，腾讯三面完马上hr面。   美团可能是纯sql，腾讯那个可能还要写写python  有了解这两个团队的佬，或者路过的各位佬，可以给给意见嘛  谢谢#牛客AI配图神器#

投递美团等公司6个岗位

点赞评论收藏

04-02 21:49

重庆邮电大学大数据开发工程师

美团数据开发暑期实习（一二面凉经）

3.21 一面自我介绍有一个新的业务，你会怎么做？（数仓建模方式）数仓分层有什么好处介绍一下Spark的join方式（broadcast join， shuffle hash join，sort-merge join）shuffle hash join 和 sort-merge join Spark常用的join是哪个？介绍一下MapReduce的执行过程Hive SQL优化星型模型、雪花模型的区别及应用场景介绍项目，项目分层是如何实现的项目的ods层数据是如何得到的，dws层是如何设计的sql : 1、求在线店铺的月累积销售金额 2、求相邻在线店铺的月累积销售金额的差额sum() ove...

OceanRivers：感觉现在的企业是真抽象，找实习生要求要有实习经历（我要是有实习经历还要来找实习吗），这和校招招应届生的要求有啥区别，按这逻辑以后是不是毕业找工作直接要求一年以上工作经验，也不知道是现在行业卷到这地步了还是企业单纯不想花更多资源培养新人，就想着招有工作经验的牛马，入职直接酷酷工作，然后给他发实习生水平的薪资当廉价劳动力