Hive专项练习 5

  1. Hive数据倾斜
  • 原因
    • 业务数据本身存在不均匀的情况
    • 关联字段重复数据较多
    • Key分布不均
    • 不同数据类型关联:ID字段既有string类型又有int类型,当按照ID字段进行两表join时,Hash默认按int类型进行匹配,导致所有的string类型的ID值都分配到一个reduce里
  • 解决
    • 了解业务数据,找出明显的问题点,帮助解决数据倾斜问题
    • 合并小文件一定程度上会缓解数据清洗
    • 适当通过控制mapper和reducer优化Hive作业的执行效率,来控制数据倾斜问题
    • 选择数据分布均匀的主表作为驱动表,做好列值裁剪
    • 大表join小表,使用map join小表首先进入内存在map端完成reduce
    • 大表join大表,空key过滤
    • 把数字类型转换成字符串类型
  1. Hive metastore 的三种模式
  • Derby 内嵌模式,默认启动的方式,一般用于单元测试;Derby模式同一时间只能有一个进程连接使用数据库
  • Local模式:使用本地MySQL部署实现metastore
  • Remote模式:远程MySQL部署实现metastore,一般用于生产环境
  1. Hive内部表默认存储配置:hive.metastore.warehouse.dir (/user/hive/warehouse)

  2. Hive外部表不指定 LOCATION 时,将在HDFS上的 /user/hive/warehouse 文件夹下以外部表的表名创建一个文件夹,将表数据存放在这里

  3. Hive 查询通常延迟较高的原因

  • 由于没有索引,需要扫描整个表
  • MapReduce 本身具有较高的响应延迟,主要需要向 Yarn 申请资源
  • 相较于关系型数据库,Hive底层基于文件系统实现,执行延迟较低
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

不愿透露姓名的神秘牛友
07-11 11:30
点赞 评论 收藏
分享
Twilight_m...:表格简历有点难绷。说说个人看法: 1.个人基本情况里好多无意义信息,什么婚姻状况、健康状况、兴趣爱好、户口所在地、身份证号码、邮政编码,不知道的以为你填什么申请表呢。 2.校内实践个人认为对找工作几乎没帮助,建议换成和测开有关的项目,实在没得写留着也行。 3.工作经历完全看不出来是干什么的,起码看着和计算机没啥关系,建议加强描述,写点你在工作期间的实际产出、解决了什么问题。 4.个人简述大而空,看着像AI生成,感觉问题最大。“Python,C,C++成为我打造高效稳定服务的得力工具”、“我渴望凭借自身技术知识与创新能力,推动人工智能技术的应用发展,助力社会实现智能化转型”有种小学作文的美感。而且你确定你个人简述里写的你都会嘛?你AI这块写的什么“深入研究”,发几篇顶会的硕博生都不一定敢这么写。而且你AI这块的能力和软测也完全无关啊。个人简述建议写你对哪些技术栈、哪些语言、哪些生产工具的掌握,写的有条理些,而且最好是和测开强相关的。
点赞 评论 收藏
分享
07-01 23:23
郑州大学 Java
否极泰来来来来:牛客迟早有高三的
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务