Hive专项练习 3
- INSERT INTO
- 直接追加到原始表中,遇到重复数据不会报错,不考虑原始数据
- INSERT OVERWRITE
- 先 remove 删除原始数据,再插入数据、
- Hive UDF 函数
- 不仅需要上传jar包
- 还需要添加 jar包,进行UDF注册才能使用
- distribute by
- 按照字段划分到不同的reduce文件中输出(多reduce场景)
- 常用:distribute by + order by
- order by
- 全局排序,1个reduce
- sort by
- 在数据到达reducer之后,在reducer内部对数据进行排序
- 每个reducer的输出是有序的,但并不保证全局的排序
- cluster by
- distribute by + sort by
- 只支持acs升序
Hive专项练习 文章被收录于专栏
Hive专项练习错题