Hive：sql转mr任务源码解析

当我们执行一条sql的时候，程序的执行入口其实是org.apache.hadoop.hive.cli.CliDriver这个类，那么这个类有一个主方法的内容是new CliDriver().run(args)
进入run()方法，可以看到刚开始就new OptionProcessor()（选项处理器，用来处理args参数的），其中有两个方法，process_stage1(args)，这个是用来解析通过命令行输入的参数，例如临时生效的hive参数等等，要是传入参数不正确，那么直接返回报错，返回1。
再往后，是ss.in(),ss.out()定义输入输出流，还有信息和错误的打印，因为我们打开客户端后，需要写sql得到结果，所以这里是需要输入输出流的，若注册流错误，返回3
往下面是可以看到OptionProcessor()的另一个方法process_stage2(ss)的调用，不过这一次传的参数是ss，里面就有定义数据库等参数的解析，默认是default数据库。这一步传参错误，返回2。
往下是用HiveConf()对参数进行一个封装，封装成key，value
再往后conf.getVar(HiveConf.ConfVars.CLIPROMPT),这个参数其实就是hive.cli.prompt，默认是hive，这个其实就是打开客户端，前面有一个hive显示
再往后就是executeDriver(ss,conf..)
进入executeDriver()方法，先判断执行引擎是否是mr，也可以配置tez，spark程序
再往下是setupConsoleReader()初始化控制台阅读器，定义了一个关键的变量，prefix。
再往下是while循环阅读readLine阅读每一行，后面是多个if判断，
- 若输入的是一个空串，那么prefix += '\n'
- 若输入的航是以"--"开头的，只能continue，因为这个是注释
- 若是以';'结尾，往下执行解析hql语句 cli.processLine()
- 若不是以';'结尾，prefix+=line，直到读到';'才会解析数据
进入processLine()解析sql的方法，前面的代码splitSeiColon(line)，对一行按照';'进行切分，因为读取到最后一个字符是';'，不一定这一行只有一个分号，返回一个List
执行List<string>里的语句，用precessCmd()运行</string>
processCmd()里有四大内容，第一个是，可以输入exit或者quit退出，并且不会区分大小写；第二部分是输入source，在里面执行一个hql文件；第三部分是以感叹号开头的，以感叹号开头表示执行shell命令；第四部分就是sql的执行，执行方法是processLocalCmd()，里面主要是由一些控制台打印的信息
里面运行IDriver.run(cmd，false)的方法
里面有parserUtil.parserDriver()方法,parserDriver()将hql转化为token，对token进行解析，生成AST
再往后是sem.analyze()方法，SemanticAnaylzer()，将AST转化为QueryBlock,将QUERYBlock转换为OperatorTree，OperatorTree进行逻辑优化生成TaskTree，TaskTree执行物理优化。
最后是TaskRunner.runSequential(),ExcDriver()，获取MR临时工作目录，定义Partitioner，定义Mapper和Reducer，实例化job提交job

#阿里面试##字节面试##美团面试#

全部评论

推荐最新楼层

vaelll

门头沟学院大数据开发工程师

总结得好细自己看源码总结的吗厉害大佬

点赞回复分享

发布于 2022-09-25 10:54 北京

斯沃福德

门头沟学院 Java

大佬

点赞回复分享

发布于 2022-09-29 10:48 重庆

02-19 12:55

广州大学产品经理

雀巢销售培训岗一面面经

简历深挖卡壳，对自己简历上的内容不熟，一整个大尴尬！！虽然通过了简历筛选，简历包装得太好……但自己没有太清晰的展示经历，表现得很稚嫩自我介绍为什么会选择雀巢接着就是尴尬的深挖简历：只挖了两段经历，开始挺公式化的，在这个项目中担当什么角色？做了什么？为什么要去做这个项目？正常回答，接着对项目中的数据进行提问，数据指标，计算口径是什么？我有点蒙回答的云里雾里，按照STAR法则梳理项目也没有厘清……紧接着面试官继续提问用三个词形容自己，觉得问到这个问题已经没戏了…… 简历深挖卡壳没得问。。。。。接下来追问了：能用自己什么经历来验证这三个词你的兴趣爱好是什么？听到面试官问这两个问题，我就知...

查看8道真题和解析非技术面试记录

点赞评论收藏

今天 16:14

已编辑

牛客_技术部_大数据工程师

面试被问“你的缺点是什么?”怎么答

在面试中被问及“你的缺点是什么”时，回答的关键在于既要展现自我认知的诚实性，又要避免让缺点成为岗位的致命伤。以下是一个分步骤的应对策略，结合具体案例：1. 回答逻辑：转化劣势为成长点核心公式：真实缺点（与岗位弱相关） + 改进行动 + 积极结果避免两种极端： ✖️ 伪装成优点的“缺点”（如“我太追求完美”），显得不真诚；✖️ 暴露岗位核心能力缺陷（如应聘销售却说“我不擅长沟通”）。2. 回答模板与案例模板“我过去在XX方面存在不足（缺点）。不过，我意识到这对工作可能有影响，因此采取了XX具体行动（学习/工具/方法）。目前已经XX改善结果，未来我会持续优化这一点。”案例参考技术岗：“我曾因过于专...

面试被问“你的缺点是什么?”怎么答

点赞评论收藏

2024-12-25 23:11

门头沟学院嵌入式工程师

刚刚考完研，感觉没什么希望，还错过秋招了嵌软春招还有希望吗😭😭😭没希望转硬件了

KPLACE：首先是板面看起来不够，有很多奖，比我厉害。项目要精减，大概详细描述两到三个，要把技术栈写清楚，分点，什么算法，什么外设，怎么优化，不要写一大堆，分点，你写上去的目的，一是让别人知道你做了这个知识点，然后在面试官技术面的时侯，他知道你会这个，那么就会跟你深挖这个，然后就是个人评价改为专业技能

点赞评论收藏