大数据开发面试题之Hive篇

hive的架构

hive外部表和内部表的区别

内部表的数据由hive管理，且存储在hive.metastore.warehouse.dir配置下的路径中；外部表的数据由HDFS存储，路径可以自己指定；删除表时，内部表会把元数据及真实数据删除；外部表不删除真实数据。

你用过hive哪些窗口函数

可参考：面试官：你用过哪些窗口函数

一般用什么文件格式

可参考：面试官：“你们实际生产中hive用什么文件格式和压缩方式”

Hive中order by，sort by，distribute by和cluster by的区别

1、order by：对数据进行全局排序，只有一个reduce工作 2、sort by：在数据进入reduce前完成排序，一般和distribute by使用，且distribute by写在sort by前面。当mapred.reduce.tasks=1时，效果和order by一样 3、distribute by：类似MR的Partition，对key进行分区，结合sort by实现分区排序 4、cluster by：当distribute by和sort by的字段相同时，可以使用cluster by代替，但cluster by只能是升序，不能指定排序规则。

说下对Hive桶的理解？

桶是对数据某个字段进行哈希取值，然后放到不同文件中存储。数据加载到桶表时，会对字段取hash值，然后与桶的数量取模。把数据放到对应的文件中。物理上，每个桶就是表(或分区）目录里的一个文件，一个作业产生的桶(输出文件)和reduce任务个数相同。

为什么要使用 Hive? hive 的优缺点？Hive的作用是什么?

这几个问题比较类似，实际上就是要你回答 hive 的特点：

提供类SQL查询，容易上手，开发方便；
封装了很多方法，尽量避免了开发MapReduce程序，减少成本；
适用于处理大规模数据，小数据的处理没有优势；
执行延迟较高，适合用于数据分析，不适合对时效性要求较高的场景。

说下Hive是什么? 跟数据库区别?

hive 是用于大数据分析处理的工具，存储基于 HDFS,计算基于 MapReduce 或 Spark，提供类 SQL 查询。

hive 除了可以通过类 SQL 查询这一点和数据库有点关系外，其它基本没啥关联。

数据库支持事务，可读可写；而hive一般不支持事务（高版本除外），一般用于读多写少的情况，不建议改动数据，因为数据存储在HDFS中，而HDFS的文件不支持修改；
hive延迟比较大，因其底层是MapReduce，执行效率较慢。但当数据规模较大的情况下，hive的并行计算优势就体现出来了，数据库的效率就不如hive了；
hive不支持索引，查询的时候是全表扫描，这也是其延迟大的原因之一。

Hive内部表和外部表的区别?

外部表在建表的时候需要加关键字 EXTERNAL；
创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变；
删除内部表会直接删除元数据【metadata】及存储数据，删除外部表仅仅删除元数据，HDFS上的文件不会被删除；
内部表数据存储在hive.metastore.warehouse.dir【默认:/user/hive/warehouse】，外部表数据存储位置由用户自己决定。

Hive建表语句

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement | like⑩ table_name]

Hive数据倾斜以及解决方案

参考：浅谈数据倾斜的原因及解决办法

Hive的三种自定义函数是什么?它们之间的区别是什么?

UDF：用户自定义函数，user defined function。一对一的输入输出。
UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
UDAF：用户自定义聚合函数。user defined aggregate function，多对一的输入输出比如count sum等。

Hive分区和分桶的区别

分区针对的是数据的存储路径；分桶针对的是数据文件。

参考：hive从入门到放弃(四)——分区和分桶

Hive的执行流程

1.(执行查询操作)Execute Query
命令行或Web UI之类的Hive接口将查询发送给Driver(任何数据库驱动程序，如JDBC、ODBC等)以执行。
2.(获取计划任务)Get Plan
Driver借助查询编译器解析查询，检查语法和查询计划或查询需求
3.(获取元数据信息)Get Metadata
编译器将元数据请求发送到Metastore(任何数据库)。
4.(发送元数据)Send Metadata
Metastore将元数据作为对编译器的响应发送出去。
5.(发送计划任务)Send Plan
编译器检查需求并将计划重新发送给Driver。到目前为止，查询的解析和编译已经完成
6.(执行计划任务)Execute Plan
Driver将执行计划发送到执行引擎。
7.(执行Job任务)Execute Job
在内部，执行任务的过程是MapReduce Job。执行引擎将Job发送到ResourceManager,
ResourceManager位于Name节点中，并将job分配给datanode中的NodeManager。在这里，查询执行MapReduce任务.
7.1.(元数据操作)Metadata Ops
在执行的同时，执行引擎可以使用Metastore执行元数据操作。
8.(拉取结果集)Fetch Result
执行引擎将从datanode上获取结果集；
9.(发送结果集至driver)Send Results
执行引擎将这些结果值发送给Driver。
10.(driver将result发送至interface)Send Results
Driver将结果发送到Hive接口