Hive笔记一

Hive是一个构建在hadoop上的数据仓库框架，其目的是让精通SQL但Java编程技能相对较弱的分析师能够对存放在HDFS中的大规模数据进行执行查询。

Hive安装：下载地址:http://hive.apache.org/downloads.html

Hive配置：

⑴使用XML配置文件进行设置，配置文件为conf目录下的hive-site.xml，该目录下还有hive-default.xml配置文件，其用于记录Hive使用的选项以及默认值。hive-site.xml文件适合存放详细的集群连接信息，因为可以使用Hadoop属性fs.defaultFS和yarn.resourcemanager.address来指定文件系统和资源管理器，如果没有这两个参数，则设为默认值，即使用本地文件系统和本地作业运行器。

使用--config选项参数给hive命令，来重新定义Hive查找hive-site.xml文件的目录,注意这里是目录，而不是具体的xml文件。

hive --config /xxx/xx/hive-conf

⑵hive 命令传递 -hiveconf选项来为单个会话设置属性，

hive -hiveconf fs.defaultFS=hdfs://localhost

⑶使用SET命令更改设置，对某个特定的查询修改Hive设置,也可以使用只带属性名的SET命令查看任何属性的当前值，不带参数的SET命令会列出Hive所设置的所有属性。注意这个列表不包含Hadoop的默认值。

hive > SET hive.enforce.bucketing=true;

优先级：4 > 3 > 1 > Hive默认值和默认文件。

Hive的运行环境：

⑴Hive的shell环境

hive > SHOW TABLES;

⑵非交互模式运行Hive的shell环境

hive -f script.q

⑶当脚本较短的时候，可使用-e 选项进行内嵌入命令

hive -e 'SELECT * FROM test'

Hive的执行引擎：

Hive的默认的执行引擎是MapReduce，还包括Apache Tez,Spark，可通过属性hive.execution.engine来控制使用哪种引擎，默认为mp(mapreduce)

Hive的日志记录：

可以本地文件/tmp中找到Hive的错误日志，如果不是，或者希望将日志目录指定到别的位置，可以通过命令：

hive -hiveconf hive.log.dir='/xxx'

日志的配置文件在conf/hive-log4j.properties中，可通过编辑这个软件来修改日志的级别和其他日志相关的设置。

Hive服务：

Hive的shell环境是服务的一种，在运行时使用--service选项指明要使用哪种服务，输入 hive --service help可以获取可用的服务列表。hive的服务有：cli,hiveserver2,beeline,hwi,jar,metastore.

如果一服务器方式运行hive(hive --service hiveserver2)，则可以在应用程序中以不同机制连接到服务器。Thrift客户端，JDBC驱动，ODBC驱动方式连接到服务器。

Metastore:

metastore是Hive元数据的集中存放地，metasotre包括两部分：服务和后台数据的存储。有两种方式的metastore配置。

⑴内嵌metastore配置：

默认情况，metastore服务和Hive服务运行在同一个JVM中，它包含一个内嵌的以本地磁盘作为存储的xx数据库实例，但是，每次只能有一个内嵌xx数据库可以访问某个磁盘上的数据库文件，即一次只能为每个metastore打开一个Hive会话。

⑵本地metastore配置：

支持多会话，使用独立的数据库，因为metastore服务和Hive服务运行在同一个进程中，但连接的却是另一个进程中运行的数据库，在同一台机器上或在远程机器上。

HiveQL

Hive的SQL方言，即HiveQL,

Hive支持原子和复杂数据类型，原子数据类型包括数值型，布尔型，字符串类型和时间戳类型，复杂数据类型包括数组，映射，结构。

原子类型的命名受MySQL数据类型名称的影响，但这些数据类型基本对应于Java中的数据类型，BOOLEAN类型用于存储真值和假值，四种有符号整数类型：TINYINT,SMALLINT,INT,BIGINT,分别等价于Java的byte,short,int,long原子数据类型，分别为1，2，4，8字节有符号整数。浮点数据类型FLOAT和DOUBLE对应于Java的float和double类型，DECIMAL类型用于表示任意精度的小数，类似Java的BigDecimal类型，常用来表示货币值。。。。

复杂类型有ARRAY,MAP,STRUCT,UNION。ARRAY,MAP与Java中同名数据类型相似，STRUCT是一种记录类型，封装一个命名的字段集合，UNION是从几个数据类型中指明选择一种，UNION的值必须与这些数据类型之一完全匹配。

函数：

Hive提供很多内置函数，分几大类，数学和统计函数，字符串函数，日期函数，条件函数，聚集函数以及处理XML和JSON的函数。可在shell环境中输入 SHOW FUNCTIONS来获取函数列表。可使用DESCRIBE来查看函数的帮助。

类型转换：

Hive不会进行反向转换，回返回错误，除非使用CAST操作。

Hive可以进行隐式转换，即任何数值类型都可以隐式的转换成一个范围更广的类型或者文本类型（STRING,VARCHAR,CHAR).

表：

Hive的表在逻辑上由存储的数据和描述表中数据形式的相关元数据组成。数据一般存放在HDFS中，当然也可以放在本地文件系统中。Hive把元数据存放在关系型数据库中，而不是放在HDFS中。

Hive的表分为两种类型：一种是内部表，一种是外部表

内部表：

Hive默认使用内部表，当加载数据到托管表时，Hive把数据移动到仓库目录，例如：

CRETE TABLE table_name(id STRING);