关注
set hive.auto.convert.join=true; set hive.mapjoin.smalltable.filesize=300000000; set hive.auto.convert.join.noconditionaltask=true; set hive.auto.convert.join.noconditionaltask.size=300000000; INSERT INTO TABLE ArticleFeatures PARTITION(dt='${etl_dt}') SELECT articleid AS articleid ,concat_ws(',',collect_set(t2.url_feature)) AS url_features FROM (SELECT DISTINCT articled AS articled ,image_urls AS image_url FROM Articles LATERAW VIEW explode(splite(image_urls,',')) ) t1 LEFT JOIN (SELECT url ,concat_ws(':',url,feature) as url_feature FROM ImageFeatures) t2 ON t1.image_url = t2.url group by articleid 直接手写的没跑过,肯定有问题(PS:我基本每条sql都要测试几遍,很少会有一边通过的样子不知道你们是不是一样),但是思路基本都是一样的,就是行转列再拼起来。关键是这个调优怎么做,很想知道一下大神的思路 个人调优思路:1、提前去重,减少数据量。数据本身较少,直接使用distinct 2、在设置中开启mapjoin,把小表直接加载进内存中join 感觉除此之外没啥要优化的了
查看原帖
点赞 评论
相关推荐
10-31 17:18
天津机电职业技术学院 大数据开发工程师 点赞 评论 收藏
分享
10-24 17:21
湖北省黄冈中学 C++ 点赞 评论 收藏
分享
牛客热帖
正在热议
# 25届秋招总结 #
297372次浏览 2616人参与
# 美团求职进展汇总 #
1326186次浏览 12438人参与
# 北方华创开奖 #
26251次浏览 282人参与
# 地方国企笔面经互助 #
3711次浏览 9人参与
# 如果不工作真的会快乐吗 #
58779次浏览 510人参与
# 选完offer后,你后悔学本专业吗 #
19453次浏览 142人参与
# 阿里云管培生offer #
16343次浏览 292人参与
# 国央企薪资爆料 #
7719次浏览 55人参与
# 如何一边实习一边秋招 #
991404次浏览 12634人参与
# 提前批简历挂麻了怎么办 #
146287次浏览 1944人参与
# 学历or实习经历,哪个更重要 #
50670次浏览 399人参与
# 海康威视求职进展汇总 #
398548次浏览 3405人参与
# 正在实习的你,几点下班 #
51481次浏览 383人参与
# 米哈游求职进展汇总 #
175678次浏览 1458人参与
# 投递实习岗位前的准备 #
1178669次浏览 18389人参与
# 面试体验感最好的是哪家? #
84975次浏览 845人参与
# 实习生应该准时下班吗 #
167317次浏览 1159人参与
# 得物求职进展汇总 #
66089次浏览 681人参与
# 求职遇到的搞笑事件 #
70560次浏览 575人参与
# 网申一定要掌握的小技巧 #
5296次浏览 53人参与
# 0offer是寒冬太冷还是我太菜 #
897515次浏览 8007人参与
# 腾讯求职进展汇总 #
195586次浏览 1639人参与