数据业务札记01：表关联优化方案-非等值关联条件的等值转换

在某些业务场景下，我们需要找到与客户信息相同（号码、地址等）的营销人员。而有时我们不仅仅局限与且条件，我们需要找到与客户号码或地址或其他信息相同的营销人员，

这个之后，比较直观的想法是关联客户表和营销表，之后在关联条件里面用or来体现或条件。

具体点，我们可以在测试环境建表来操作一下：

客户表：

营销表：

可以看到客户id 营销人员id有重复，且二者的号码或地址都多少出现重复的情况。

下面我们给出两个版本的代码

①直接在关联条件里面出现or

②将或关联条件拆分成两个等值条件（号码相同、地址相同）之后再把结构union起来。

代码①

select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.tele = b.tele
or #第一次用这种or的关联规则，从结果我们可以看出，其实用这种方式可以筛选出sales_phone,sales_addr,cust_phone,cust_addr其中一个相同的cust_id
a.place = b.place
) a
where sales_tele=cu_tele or sales_place=cu_place

结果：

代码②

select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.tele = b.tele
) a
where sales_tele=cu_tele

union

select a.* from
(
select a.sales_id,a.tele as sales_tele,a.place as sales_place ,
b.cuid,b.tele as cu_tele,b.place as cu_place from sale_info a
left join cu_info b
on
a.place = b.place
) a
where sales_place = cu_place

结果：

结果分析：上述两份代码得到相同的结果，说明逻辑是没问题的。

区别在于代码②在表行数很大的时候性能会更好。因为在系统中，对于大表的等值关联会采用哈希连接的形式来进行关联，但哈希连接不支持非等值关联，于是我们需要将非等值关联拆解成若干个等值关联，之后按照实际需求选用union 或者union all起来。而代码①中涉及非等值关联条件，系统倾向使用nested loops嵌套循环，这种方式效率较低，如果表1有100w行，那么将会循环100w次来进行关联。因此在实践中涉及非等值条件时，我们需要考虑将非等值条件进行等值转换，调用更加高效的关联方法来得到我们需要的结果。

#数据分析师##秋招##春招##SQL面试##校招#