不懂就问——关于数据倾斜

想问下大家,Spark3.0+版本中开启AQE的话会自动对较大的分区做拆分,这样的话数据倾斜问题还存在吗#大数据##Spark#
全部评论
这个开启可以自动是用skew join优化数据倾斜,有几个参数要根据实际情况配置一下,但数据倾斜有没有解决得看真正执行的时候task的状态吧
点赞 回复 分享
发布于 2023-09-24 16:46 山东

相关推荐

360服务端 面经360服务器开发—golang为主  一面  7.5  全程45min1.自我介绍 2.上段实习(ps:上段实习也是网安行业的,问的比较细)3.golang并发优势4.gmp和gc(ps:回答较为全面)😬😬😬gmp从单进程讲到多进程/多线程,gmp的设计原理和优势,为什么等等gc从算法到gc阶段到写屏障等等5.服务器优化方案ps:当时简单回答了看CPU使用率,看MySQL慢查询日志,用普罗米修斯去监控数据库6.接口性能优化ps:好多方案,大概举例了11种,等我整理链接放在评论区7.es为什么那么快(es问的比较深,好久没看了)答:倒排索引,然后举例讲了一下怎么倒排的,内存数据库,举例高度分页会导致查询速度变低,json数据格式,数据存储小,不确定对不对8.高必发场景下数据如何平滑写入es9.MySQL索引等10.redis数据结构和场景11.redis,hll用过吗答:用过,是一种概率基数统计算法,统计网站PV和UV,同一个ip下注册用户数量等。360集团2025届校招内推【内推码】ES3C3K安全、算法、开发、大数据、运营、职能等十类方向,百余种岗位! 北京 /上海/深圳等多座城市任米哈游你选择早投早offer!【内推码】ES3C3K【内推码】ES3C3K【内推码】ES3C3K【内推网申链接】https://360campus.zhiye.com/campus/jobs?shareId=92cfb7e8-2ae3-49dc-b960-cf7ce3c1a6c7&shareSource=2投递后查询阶段状态:https://neitui.italent.cn/360campus/candidate【福利待遇】 部门团建:每月可享受 150 元 /人的团队活动基金 免费班车 带薪病假: 每月可享受一天带薪病假,当月有效不累计 带薪年假:新入职员工即有每年10天的年假 餐费补贴: 每天可享有35元餐费补贴或者在食堂就餐(不分休息日和节假日均可就餐哦) 六险一金: 公积金12%顶格缴纳,补充商业保险 免费健身: 有免费的健身房和浴室 免费按摩: 有免费的按摩室,按摩师傅给你按摩、艾灸、电疗、拔罐 年度体检: 每年一次免费参加身体健康体检 大家投递完可以在评论区打上姓名缩写+岗位,我来确认有没有内推成功喽
360集团
|
校招
|
26个岗位
点赞 评论 收藏
分享
9.12 一面结束后半小时飞速约了二面,9.14 二面- 自我介绍- 为什么读研- 为什么转专业- 你对大数据的理解- 介绍一下实习组内的分工、数仓架构- 以商品域为例,数据的模型/表有哪些,从哪些角度评价数据模型- 你们组具体的宏观的业务流程- 具体是怎么和其他部门协作的,流程是怎么样- 你是怎么理解数开的工作的,你个人的偏好是哪方向- 数据库的范式、事务- 范式建模、维度建模对比,适用具体场景- 你了解哪些排序算法,详细讲讲冒泡排序和快速排序- 对于小规模的数据比如学校成绩表、课程表等等建设数仓是否一定要使用维度建模- 看你写了 kimball 的维度建模,你对维度建模的理解- MR 流程- MR 的并行度是由什么决定的- 一个场景:两表Join,然后 group by 计算指标,写入一张表,这种场景可能会出现哪些潜在的问题- 你有很多任务优化的经验,你的具体思路是怎样的- 你之前谈到的数据质量,具体包括哪些,如何去实现的,以及如何量化- 你了解 Doris,ClickHouse 之类的 OLAP 引擎吗,和 Hadoop、Hive、Spark 这些有什么区别,具体场景是哪些- 你目前的秋招进度是怎样的,投了哪些公司- 没做题- 反问环节:业务、数仓架构、技术栈等
点赞 评论 收藏
分享
2 收藏 评论
分享
牛客网
牛客企业服务