#hive##优化Hive配置
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
全部评论

相关推荐

头像
11-09 17:30
门头沟学院 Java
TYUT太摆金星:我也是,好几个华为的社招找我了
点赞 评论 收藏
分享
10-28 11:04
已编辑
美团_后端实习生(实习员工)
一个2人:我说几个点吧,你的实习经历写的让人觉得毫无含金量,你没有挖掘你需求里的 亮点, 让人觉得你不仅打杂还摆烂。然后你的简历太长了🤣你这个实习经历看完,估计没几个人愿意接着看下去, sdk, 索引这种东西单拎出来说太顶真了兄弟,好好优化下简历吧
点赞 评论 收藏
分享
点赞 收藏 评论
分享
牛客网
牛客企业服务