2021-05-21 18:13

关注

阿里巴巴2016校园招聘数据挖掘工程师详解

##简答题
#####1、公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进行问卷调研。为不过于打搅商家,问卷调研采取抽样的方式进行确定商家名单。怎么抽样比较好?

######参考答案：
可以考虑采用分层随机抽样的方式。首先根据销售额或销售量对商家进行分层，这样可能会将商家分为高销售额(量) 商户、中销售额(量)商户、低销售额(量)商户等，然后根据这三者的比例确定各个层次应抽取的商户数。对抽取出来的样本，根据相应的指标，如访问量、购买量、买家评级、评论数、发货速度等指标来综合考虑商家的健康指数。

#####2、查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)。

city	buyer_id	order_id	amt
a	1	1	100
a	1	2	100
b	2	3	100
b	3	4	20
c	4	5	0

######参考答案：

select buyer_id,sum(amt) as amt from a
where city in
(
    select city from
    (
        select city,sum(amt) as amt from a group by city
    ) t
    where t.amt>0
)

##不定项选择题
#####3、下列哪些方法可以用来对高维数据进行降维:

A. LASSO
B. 主成分分析法
C. 聚类分析
D. 小波分析法
E. 线性判别法
F. 拉普拉斯特征映射

######解析：
$L A S S O$ 通过参数缩减达到降维的目的；

主成分分析法， $P C A$ ，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分，从而达到降维的目的；

聚类分析，先分大类，然后细分小类，同样可以将数据降维；

小波分析法，一些变换的操作降低其他干扰也可以看作是降维；

线性判别法， $L D A$ ，通过找到一个空间使得类内距离最小类间距离最大，所以可以看做是降维；

拉普拉斯特征映射，通过特征映射使用最小的 $m$ 个非零特征值对应的特征向量来实现降维。

#####4、关于线性回归的描述,以下正确的有:

A. 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B. 基本假设包括随机干扰下是均值为0的同方差正态分布
C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D. 在违背基本假设时,模型不再可以估计
E. 可以用DW检验残差是否存在序列相关性
F. 多重共线性会使得参数估计值方差减小

######解析：
一元线性回归的基本假设有：
1）随机误差项是一个期望值或平均值为 $0$ 的随机变量；
2）对于解释变量的所有观测值，随机误差项有相同的方差；
3）随机误差项彼此不相关；
4）解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；
5）解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
6）随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在以下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。

杜宾-瓦特森（DW）检验，计量经济，统计分析中常用的一种检验序列一阶自相关最常用的方法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
多重共线性使参数估计值的方差增大。

#####5、关于相关系数,下列描述中正确的有:

A. 相关系数为0.8时,说明两个变量之间呈正相关关系
B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强
C. 相关性等于1相较于相关系数等于0,前者的相关性更强
D. Pearson相关系数衡量了两个定序变量之间的相关程度
E. Spearman相关系数可以衡量两个定序变量之间的相关程度
F. 相关系数为0.2相较于-0.8,前者的相关性更强

######解析：
定序测量数据可以用 $s p e a r m a n$ 相关系数，不能用 $p e a r s o n$ 相关系数。

相关系数 $ρ_{XY}$ 取值在 $- 1$ 到 $1$ 之间，
$ρ_{XY} = 0$ 时，称 $X, Y$ 不相关；
$ρ_{XY} | = 1$ 时，称 $X, Y$ 完全相关，此时， $X, Y$ 之间具有线性函数关系；
$ρ_{XY} | < 1$ 时， $X$ 的变动引起 $Y$ 的部分变动， $ρ_{XY}$ 的绝对值越大， $X$ 的变动引起 $Y$ 的变动就越大， $ρ_{XY} | > 0.8$ 时称为高度相关，当 $ρ_{XY} | < 0.3$ 时称为低度相关，其它时候为中度相关。

#####6、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?

A. ∑(N/K-Cij)(N/K-Cij)越小越纯
B. -∑CijLOG(Rij)越小越纯
C. ∑(1-RijRij)越小越纯
D. ∑(1-Rij)(1-Rij)越小越纯
E. ∑(1-Rij)^2越小越纯
F. -∑RijLOG(Rij)越小越纯

######解析：
信息熵 $-\sum R_{ij}log(R_{ij})$ ， $E n t$ 的值越小 , 则纯度越高， $F$ 正确， $B$ 与 $F$ 类似，差一个常数，故 $B$ 正确；

基尼系数 $\sum R_{ij}^2$ , $G i n i$ 越小，则纯度越高， $C$ 类似于基尼系数的公式，故 $C$ 正确；

基尼系数 $\sum R_{ij}^2$ 越小越纯即 $\sum R_{ij}^2$ 越大越纯，故 $D 、 E$ 错误；

$A$ 明显错误。

#####7、excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括：

A. index+match
B. vlookup
C. hlookup
D. find
E. if
F. like

######解析：
在 $E x c e l$ 中 $M A T C H$ 函数可以返回指定内容所在的位置，而 $I N D E X$ 又可以根据指定位置查询到位置所对应的数据，结合使用，我们可以返回指定位置相关联的数据；

$E x c e l$ 里根据一个工作簿的一个工作表的 $A$ 列内容搜索另外一个工作簿对应 $A$ 列的 $B$ 列值，在 $s h e e t 1$ 的 $B 1$ 利用 $v l o o k u p$ 函数可以实现。

##单选题
#####8、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测？

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

######解析：
$A R$ 模型是一种线性预测，即已知 $N$ 个数据，可由模型推出第 $N$ 点前面或后面的数据（设推出 $P$ 点），所以其本质类似于插值。

$M A$ 模型( $moving\ average\ model$ )滑动平均模型，模型参量法谱分析方法之一。

$A R M A$ 模型( $auto\ regressive\ moving\ average\ model$ )自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比 $A R$ 模型法与 $M A$ 模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

$G A R C H$ 模型称为广义 $A R C H$ 模型，是 $A R C H$ 模型的拓展， $G A R C H$ 对误差的方差进行了进一步的建模，特别适用于波动性的分析和预测。

另外， $A R 、 M A 、 A R M A$ 是 $A R M A$ 的三种基本形式， $A R M A$ 是混合了 $A R 、 M A$ ，所以这三个存在内在联系，排除法也可以确定选择 $D$ 。

#####9、在以下不同的场景中,使用的分析方法不正确的有：

A. 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C. 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

######解析：
预测消费需要用回归模型来做。而不是聚类算法。

#####10、关于正态分布,下列说法错误的是:

A. 正态分布具有集中性和对称性
B. 正态分布的均值和方差能够决定正态分布的位置和形态
C. 正态分布的偏度为0，峰度为1
D. 标准正态分布的均值为0，方差为1

######解析：
偏度 $(S k e w n e s s)$ 是描述某变量取值分布对称性的统计量。

峰度 $(K u r t o s i s)$ 是描述某变量所有取值分布形态陡缓程度的统计量。

正态分布的偏度和峰度均为 $0$ 。

#####11、SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示？

A. 零个字符
B. 1个字符
C. 多个字符
D. 以上都可以

######解析：
没什么可说的，通配符 $\%$ 可以匹配零个或者 $1$ 个字符，也可以匹配多个字符，所以 $A 、 B 、 C$ 都对，那么选 $D$ 。

#####12、一组数据,均值>中位数>众数,问这组数据?

A. 左偏
B. 右偏
C. 钟型
D. 对称

######解析：
“偏” 可以理解为哪边数据较少朝哪儿偏；
众数，频率最高的数，也是峰值对应的数；
中位数，中间位置的那个数，正态分布图对半分的那条线对应的数；
当中位数 $>$ 众数时，很明显数据是右偏的。

#####13、65,8,50,15,37,24,( )。括号中的数字是( )

A. 25
B. 26
C. 22
D. 27

######解析：
可以将序列拆分为两个序列：
奇数项： $65 、 50 、 37$
偶数项： $8 、 15 、 24$
奇数项依次减少 $15 、 13$ ，偶数项依次增加 $7 、 9$ ，所以下一个是奇数项，应该是上一个奇数项减少 $11$ 为 $26$ 。

#####14、有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少？

A. 0.3333
B. 0.25
C. 0.2
D. 0.1667

######解析：
$\frac{2}{5} * \frac{1}{4} * 2 = 0.2$

#####15、以下哪个是常见的时间序列算法模型？

A. RSI
B. MACD
C. ARMA
D. KDJ

######解析：
时间序列算法模型是指采用某种算法（可以是神经网络、 $A R M A$ 等）模拟历史数据，找出其中的变化规律，回归滑动平均模型（ $A R M A$ 模型， $Auto-Regressive\ and\ Moving\ Average\ Model$ ）是研究时间序列的重要方法，由自回归模型（ $A R$ 模型）与滑动平均模型（ $M A$ 模型）为基础混合构成。

#####16、以下对k-means聚类算法解释正确的是：

A. 能自动识别类的个数,随即挑选初始点为中心点计算
B. 能自动识别类的个数,不是随即挑选初始点为中心点计算
C. 不能自动识别类的个数,随即挑选初始点为中心点计算
D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算

######解析：
$k - m e a n s$ 聚类算法过程：
1）适当选择 $c$ 个类的初始中心；
2）在第 $k$ 次迭代中，对任意一个样本，求其到 $c$ 个中心的距离，将该样本归到距离最短的中心所在的类；
3）利用均值等方法更新该类的中心值；
4）对于所有的 $c$ 个聚类中心，如果利用 $2 、 3$ 的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

可以看出需要选择类别数量，但初次选择是随机的，最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选 $C$ 。

#####17、想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?

A. 从中抽取的500名学生的身高
B. 上海市全部小学生的身高
C. 从中抽取的500名小学生
D. 上海市全部小学生

######解析：
这个题有些奇葩，纯粹送分题，我怎么感觉小学就已经讲过这种难度的样本问题，类似于拿 $1 + 1$ 等于几的问题问大学生，难道是为了咋呼人？

全部评论

推荐最新楼层

02-14 16:43

南昌大学算法工程师

小L的空投

链接 这道题很容易想到要用并查集,我们只需要用逆向思维 但是,由于数据很大,对于cnt(需要的空投数)不能每次都计数,而是需要实时更新 我们不妨思考,当两个城市合并时,如果二者的根节点不同,那么我们就检查这两个城市的连通块数量,如果大于等于d,cnt就减一,合并完再加上即可 #include<bits/stdc++.h> using namespace std; #define ll long long vector<ll>tree; int n,m,x,d; int cnt=0; struct node{ ll h; int idx; bool operator&lt...

点赞评论收藏

02-17 20:27

清华大学 Java

如何在 TRAE 中安装 UI/UX Pro Max Skill？完整图文教程

UI/UX Pro Max Skill 是一个开源的 AI 设计增强插件，GitHub 已获得 22K+ Stars，能让 TRAE 生成的界面从"实习生水平"瞬间提升到"资深设计师水准"。本文提供保姆级安装教程。 什么是 UI/UX Pro Max Skill？  UI/UX Pro Max Skill 是一个专为 AI 编程助手设计的开源技能库，GitHub 星标已突破 22,000+，并持续快速增长。它整理了：  67 种 UI 设计风格 - Glassmorphism, Claymorphism, Minimalism, Brutalism, N...

点赞评论收藏

01-30 16:01

北京大学 Java

字节后端面经，严刑烤打3小时

1. 问实习经历，但是拷打的是自己的项目，正规的规则引擎了解过吗，没有。2. 浏览器键入网址全过程3. http为什么是无状态4. 死锁条件5. 子网掩码的作用6. mysql b+树和b树7. redis数据结构，用什么结构实现延迟消息队列8. redis分片集群，如何分片的，有什么好处9. jvm内存分布，有垃圾回收的是哪些地方10. spring的aop是如何实现的11. 算法： 数组最大子串和 经过提示才写对，太菜了面完一个小时约二面。

牧羊人_xmy：看到北大佬也还在面试心里舒服多了

查看11道真题和解析

点赞评论收藏

2025-12-28 20:47

已编辑

北京工商大学 Java

双非大二简历，求拷打🙏，感觉没面很大一部分因为简历

rt，lz本人大二，之前在牛客上发了个为什么没大厂约面的帖子，后面被说是简历问题很大，听周围朋友建议我把项目经历删了，直接都换成实习经历，早上用latex写了个新的简历出来简历上稍微包装了下，因为购物车和营销补差这两块业务侧没提这个需求，但是我自己练手写了一点，也大概知道咋做在小厂安逸的环境待久了，其实11月和12月都没学到什么东西，这几天准备离职，等考完试沉淀一个寒假试试大厂。希望大家能对我多提点建议，不甚感激。

程序员牛肉：我靠你这个实习经历其实最需要担心的点是你做的太多了，可能会被面试官怀疑是你伪造的。交易状态机是你做的，支付多渠道是你做的，对账是你做的，结算还是你做的，重复支付也是你做的，整个服务的异常处理也是你做的。其实你这个反而问题很大的，你想想站在面试官的角度，他是真的会相信你的能力很强，还是相信这份实习你伪造了大部分？我相信你真的做了这么多，但是删一些，废话删一删。你这个做的太多了反而真实性不可信。后面再补一个项目，在github上找一个高star的项目学一学然后写到自己简历上。我觉得你能力肯定没问题。28届能做到这个份上很厉害，但是在求职市场中，你不是在跟28届的同学比，把你这个简历放到27届其实也就一般水平。所以后续要想一想看看能不能给自己简历上搞点亮点，比如开源贡献呢？比如博客呢？

实习要如何选择和准备？

点赞评论收藏