👍
点赞 评论

相关推荐

1.Spark架构1、使用spark-submit命令提交Spark作业时,如果指定为YARN Client模式,那么就会在本地运行启动Driver进程。2、Driver启动后向ResourceManager建立通讯申请启动ApplicationMaster;3、ResourceManage 接收到这个请求后,就会在集群中选一个合适的 NodeManager并分配一个Container资源容器,在这个Container中启动ApplicationMaster。4、ApplicationMaster启动之后,向ResourceManager建立通讯并申请额外的Container用于运行Executor进程。ResourceManager基于集群状况继续分配Container给NodeManager。5、然后ApplicationMaster对指定的NodeManager发出启动Executor进程请求。6、Executor进程启动后会向Driver反向注册,全部注册完成后,Driver开始执行解析执行提交的spark应用程序的代码(SparkContext),构建DAG有向无环图,当执行到行动算子,就会触发Job,由DAG调度器根据宽窄依赖从后往前划分stage,划分完毕之后,每个Stage有多个task,这些任务被组织成形成task集合发送给任务调度器,最后将Task发送到对应的Executor执行。7、spark应用程序运行完成后,ApplicationMaster向ResourceManager申请注销自己并释放相关资源。2. yarn提交流程(包括提交流程, 资源调度三种模型) yarn提交流程1.客户端通过yarn jar命令或API向ResourceManager提交作业申请启动ApplicationMaster。(RM返回一个Application ID作为作业的唯一标识)2.RM收到请求后,分配一个Container资源容器到NM,在Container中启动AM。AM负责作业的生命周期管理,包括资源协商和任务监控。3.AM启动之后向RM申请运行任务所需的资源(如CPU、内存)。RM根据调度策略(如Capacity/Fair)分配资源,返回NM位置信息。4.然后AM与NodeManager通信,在分配的容器中启动任务(如MapTask\ReduceTask)。5.任务完成后,AM向RM注销并释放资源。资源调度三种模型  yarn-site.xml设置答:分别是先进先出调度器、容量调度器、公平调度器,先进先出调度器的资源分配策略就是按作业提交顺序分配资源,先到先得。但是在多用户环境下,如果有大作业先提交,可能会导致小作业长时间等待,所以资源利用率比较低,不利于它的资源的高效共享,适用于作业提交顺序有严格要求,且对资源共享要求不高的场景。容量调度器资源分配策略是将集群资源划分成多个队列,每个队列配置一定比例的集群资源,队列之间相互独立,每个队列内部采用先进先出或者优先级调度资源。在多用户环境下,不同用户的作业可以提交到不同队列,可以避免单个大作业占用全部资源而其他用户作业长时间等待的情况,提高资源利用率,适用于有一定资源隔离需求,希望保障不同用户或作业组基本资源份额的场景。公平调度器资源分配策略是让所有正在运行的作业公平地共享集群资源。动态灵活分配资源,当新作业提交时,会尽量为其分配与已运行作业相当的资源量,实现作业之间的公平性。在多用户环境中,无论作业大小,都能获得相对公平的资源使用机会,防止小作业被大作业长时间阻塞。如果某个用户没有作业运行,其资源会被其他有作业的用户临时借用,进一步提高了资源的利用率。公平调度器适用于多用户环境下对资源公平性要求较高,希望资源能高效共享的场景。3.数仓怎么分层、每层作用职责回答:传统的数仓主要就是分五层 ODS数据贴源层  ,DIM维度层 ,DWD明细数据层,DWS汇总数据层,ADS 数据应用层1.数据贴源层,数仓架构的最底层,根据表的数据量级和更新频率选择增量/全量同步策略从业务操作系统中抽取数据,几乎不做修改,储存原始的数据副本。2.DIM维度层就是整合多源系统中的维度属性(如客户服务系统、外部数据源系统、催收管理系统等),存放一致性维度信息表。3.DWD层就是先对ODS层的数据进行数据清洗转换操作来保持基本的可用健康数据,然后采用维度建模方法,以业务过程为建模驱动,基于每个具体的业务过程,构建最细粒度的明细层事实表,并且结合业务数据使用特点,将维度表的某些属性字段退化到事实表,减少关联成本,提高模型易用性。4.DWS层基于上层应用需求,对DWD层数据进行多维度聚合指标加工,生成公共粒度的汇总指标表,为上层提供各种开箱即用的汇总指标。5.ADS 数据应用层是数据仓库架构中的上层,通过整合DWD层明细数据和DWS层汇总指标数据为业务端、管理层直接提供业务高度聚合、场景化的数据服务,比如数据查询分析报告、业务报表可视化展示等。6.DM数据集市层:针对特定的业务部门或主题领域,从 DWD 层、DWS 层或其他相关数据源中提取、整合和汇总数据。它是一个面向特定应用场景的数据集合,具有较高的针对性和易用性,能够快速满足特定业务部门的数据分析需求,例如销售数据集市、财务数据集市等。
查看5道真题和解析
点赞 评论 收藏
分享
3.21 一面自我介绍有一个新的业务,你会怎么做?(数仓建模方式)数仓分层有什么好处介绍一下Spark的join方式(broadcast join, shuffle hash join,sort-merge join)shuffle hash join 和 sort-merge join Spark常用的join是哪个?介绍一下MapReduce的执行过程Hive SQL优化星型模型、雪花模型的区别及应用场景介绍项目,项目分层是如何实现的项目的ods层数据是如何得到的,dws层是如何设计的sql : 1、求在线店铺的月累积销售金额 2、求相邻在线店铺的月累积销售金额的差额sum() ove...
OceanRivers:感觉现在的企业是真抽象,找实习生要求要有实习经历(我要是有实习经历还要来找实习吗),这和校招招应届生的要求有啥区别,按这逻辑以后是不是毕业找工作直接要求一年以上工作经验,也不知道是现在行业卷到这地步了还是企业单纯不想花更多资源培养新人,就想着招有工作经验的牛马,入职直接酷酷工作,然后给他发实习生水平的薪资当廉价劳动力
查看18道真题和解析
点赞 评论 收藏
分享
牛客网
牛客企业服务