Hive专项练习 3

  1. INSERT INTO
  • 直接追加到原始表中,遇到重复数据不会报错,不考虑原始数据
  1. INSERT OVERWRITE
  • 先 remove 删除原始数据,再插入数据、
  1. Hive UDF 函数
  • 不仅需要上传jar包
  • 还需要添加 jar包,进行UDF注册才能使用
  1. distribute by
  • 按照字段划分到不同的reduce文件中输出(多reduce场景)
  • 常用:distribute by + order by
  1. order by
  • 全局排序,1个reduce
  1. sort by
  • 在数据到达reducer之后,在reducer内部对数据进行排序
  • 每个reducer的输出是有序的,但并不保证全局的排序
  1. cluster by
  • distribute by + sort by
  • 只支持acs升序
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

评论
点赞
收藏
分享
牛客网
牛客企业服务