『拼多多』数据分析岗面经！（含参考答案）

数据分析之——大厂面经详解系列又来啦！

之前写过字节跳动、阿里、腾讯等大厂数据分析岗面经+考点拆解（有答案+备考tips）

可戳链接（或者来六哥主页看）：

https://www.nowcoder.com/discuss/1020491

https://www.nowcoder.com/discuss/751900

本篇，讲一讲业界薪资天花板之

—— 『拼多多』

一如既往，为大家整理了拼多多面试真题

可以自测模拟，直观感受下难易程度

（含参考答案+备考Tips）

------正文手动分割线------
本文结构速览：

一、SQL题

二、机器学习与概率论

三、开放性问题

ps.文末送惊喜！有求职题库

一、SQL题

现有一张用户成交订单表

表名：user_order_summary，字段如下：

uid 用户ID，主键
order_cnt 成交订单数

▌面试真题1：

请使用mysql计算出成交订单数的众数
★解题思路

首先先了解一下众数的概念

众数（Mode）是指在统计分布上具有明显集中趋势点的数值，代表数据的一般水平。也是一组数据中出现次数最多的数值，有时众数在一组数中有好几个。

情况①：一组数据中，出现次数最多的数就叫这组数据的众数。

举例：1，2，3，3，4的众数是3。

情况② ：如果有两个或两个以上个数出现次数都是最多的，那么这几个数都是这组数据的众数。

举例：1，2，2，3，3，4的众数是2和3。

情况③：如果所有数据出现的次数都一样，那么这组数据没有众数。

举例：1，2，3，4，5没有众数

★参考答案

SELECT  order_cnt
FROM
(
    SELECT  order_cnt
           ,user_cnt
           ,rank()over(order by user_cnt desc) AS rank_id
    FROM
    (
        SELECT  order_cnt
               ,COUNT(1) AS user_cnt
        FROM user_order_summary
        GROUP BY  order_cnt
    )a
)a
WHERE user_cnt > 1 -- 剔除情况3
AND rank_id = 1

▌面试真题2：

请使用mysql计算出成交订单数的四分位数

★解题思路

首先先了解一下四分数的原理及计算逻辑

四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。它是一组数据排序后处于25%，中位数和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据

四分数的位置：

Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.50
Q3的位置= (n+1) × 0.75

n表示项数，也就是计算样本量

▼ 情况①

数据为: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

总共11项

Q1的位置=(11+1)×0.25=3，所以Q1=13
Q2的位置=(11+1)×0.50=6，所以Q2=40
Q3的位置=(11+1)×0.75=9，所以Q2=43

▼ 情况②

数据总量: 7, 15, 36, 39, 40, 41

一共6项

Q1的位置=(6+1)×0.25=1.75，在第1和第2个之间
Q2的位置=(6+1)×0.50=3.50，在第3和第4个之间
Q3的位置=(6+1)×0.75=5.25，在第5和第6个之间

▼ 当Qi的位置并非整数，如何计算呢？

第一步：将数据从小到大排序，计为数组a，a[i]表示第i个位置的数值
第二步：确认四分位数的位置P，将P的整数部分计为c,小数部分记为d，比如Q1的位置为1.75，那么c=1，d=0.75
第三步：计算位置P对应的值，a[p] = a[c]+(a[c+1]-a[c])*d，比如Q1的位置1.75计算结果为a[1.75]=a[1]+(a[1+1]-a[1])*0.75=7+(15-7)*0.75=13

以此类推，可以计算得到

a[Q1]=a[1.75]=a[1]+(a[2]-a[1])*0.75=13
a[Q2]=a[3.5]=a[3]+(a[4]-a[3])*0.5=37.5
a[Q3]=a[5.25]=a[5]+(a[6]-a[5])*0.25=40.25

★参考答案

SELECT  int_q1_value+(int_q1_next_value-int_q1_value)*decimal_q1_place AS q1
       ,int_q2_value+(int_q2_next_value-int_q2_value)*decimal_q2_place AS q2
       ,int_q3_value+(int_q3_next_value-int_q3_value)*decimal_q3_place AS q3
FROM
(
    SELECT
    -- Q1的相关数据 
            MAX(if(int_q1_place = b.rn,order_cnt,NULL))              AS int_q1_value
           ,MAX(if(int_q1_place+1 = b.rn,order_cnt,NULL))            AS int_q1_next_value
           ,MAX(decimal_q1_place)                                    AS decimal_q1_place
    -- Q2的相关数据
           ,MAX(if(int_q2_place = b.rn,order_cnt,NULL))              AS int_q2_value
           ,MAX(if(int_q2_place+1 = b.rn,order_cnt,NULL))            AS int_q2_next_value
           ,MAX(decimal_q2_place)                                    AS decimal_q2_place
    -- Q3的相关数据
           ,MAX(if(int_q3_place = b.rn,order_cnt,NULL))              AS int_q3_value
           ,MAX(if(int_q3_place+1 = b.rn,order_cnt,NULL))            AS int_q3_next_value
           ,MAX(decimal_q3_place)                                    AS decimal_q3_place
    FROM
    (
        -- 位置取整数和小数部分
        SELECT  FLOOR(q1_place)          AS int_q1_place
               ,q1_place-floor(q1_place) AS decimal_q1_place
               ,FLOOR(q2_place)          AS int_q2_place
               ,q2_place-floor(q2_place) AS decimal_q2_place
               ,FLOOR(q3_place)          AS int_q3_place
               ,q3_place-floor(q3_place) AS decimal_q3_place
        FROM
        (
            -- 位置
            SELECT  MAX(rn)          AS n -- 样本数
                   ,(MAX(rn)+1)*0.25 AS q1_place
                   ,(MAX(rn)+1)*0.50 AS q2_place
                   ,(MAX(rn)+1)*0.75 AS q3_place
            FROM user_order_rn
        )a
    )a
    INNER JOIN user_order_rn b
    ON 1 = 1 -- 笛卡尔乘积
)a