#hive##优化Hive配置
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
全部评论
相关推荐
点赞 评论 收藏
分享
一个2人:我说几个点吧,你的实习经历写的让人觉得毫无含金量,你没有挖掘你需求里的 亮点, 让人觉得你不仅打杂还摆烂。然后你的简历太长了🤣你这个实习经历看完,估计没几个人愿意接着看下去, sdk, 索引这种东西单拎出来说太顶真了兄弟,好好优化下简历吧
点赞 评论 收藏
分享