数据业务札记01:表关联优化方案-非等值关联条件的等值转换

在某些业务场景下,我们需要找到与客户信息相同(号码、地址等)的营销人员。而有时我们不仅仅局限与且条件,我们需要找到与客户号码或地址或其他信息相同的营销人员,
这个之后,比较直观的想法是关联客户表和营销表,之后在关联条件里面用or来体现或条件。
具体点,我们可以在测试环境建表来操作一下:
客户表:

营销表:

可以看到 客户id 营销人员id有重复,且二者的号码或地址都多少出现重复的情况。
下面我们给出两个版本的代码
①直接在关联条件里面出现or
②将或关联条件拆分成两个等值条件(号码相同、地址相同)之后再把结构union起来。

代码①
select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.tele = b.tele
or #第一次用这种or的关联规则,从结果我们可以看出,其实用这种方式可以筛选出sales_phone,sales_addr,cust_phone,cust_addr其中一个相同的cust_id
a.place = b.place
) a
where sales_tele=cu_tele or sales_place=cu_place

结果:


代码②
select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.tele = b.tele
) a
where sales_tele=cu_tele

union

select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.place = b.place
) a
where sales_place =  cu_place

结果:


结果分析:上述两份代码得到相同的结果,说明逻辑是没问题的。
区别在于代码②在表行数很大的时候性能会更好。因为在系统中,对于大表的等值关联会采用哈希连接的形式来进行关联,但哈希连接不支持非等值关联,于是我们需要将非等值关联拆解成若干个等值关联,之后按照实际需求选用union 或者union all起来。而代码①中涉及非等值关联条件,系统倾向使用nested loops嵌套循环,这种方式效率较低,如果表1有100w行,那么将会循环100w次来进行关联。因此在实践中涉及非等值条件时,我们需要考虑将非等值条件进行等值转换,调用更加高效的关联方法来得到我们需要的结果。




#数据分析师##秋招##春招##SQL面试##校招#
全部评论

相关推荐

不愿透露姓名的神秘牛友
11-27 10:52
点赞 评论 收藏
分享
11-01 20:03
已编辑
门头沟学院 算法工程师
Amazarashi66:这种也是幸存者偏差了,拿不到这个价的才是大多数
点赞 评论 收藏
分享
评论
3
1
分享
牛客网
牛客企业服务