阿里巴巴2016校园招聘 数据挖掘工程师 详解

##简答题
#####1、公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进行问卷调研。为不过于打搅商家,问卷调研采取抽样的方式进行确定商家名单。怎么抽样比较好?

######参考答案:
可以考虑采用分层随机抽样的方式。 首先根据销售额或销售量对商家进行分层,这样可能会将商家分为高销售额(量) 商户、中销售额(量)商户、低销售额(量)商户等,然后根据这三者的比例确定各个层次应抽取的商户数。 对抽取出来的样本,根据相应的指标,如访问量、购买量、买家评级、评论数、发货速度等指标来综合考虑商家的健康指数。

#####2、查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)。

city buyer_id order_id amt
a 1 1 100
a 1 2 100
b 2 3 100
b 3 4 20
c 4 5 0

######参考答案:

select buyer_id,sum(amt) as amt from a
where city in
(
    select city from
    (
        select city,sum(amt) as amt from a group by city
    ) t
    where t.amt>0
)

##不定项选择题
#####3、下列哪些方法可以用来对高维数据进行降维:

A. LASSO
B. 主成分分析法
C. 聚类分析
D. 小波分析法
E. 线性判别法
F. 拉普拉斯特征映射

######解析:
L A S S O LASSO LASSO 通过参数缩减达到降维的目的;

主成分分析法, P C A PCA PCA,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,从而达到降维的目的;

聚类分析,先分大类,然后细分小类,同样可以将数据降维;

小波分析法,一些变换的操作降低其他干扰也可以看作是降维;

线性判别法, L D A LDA LDA,通过找到一个空间使得类内距离最小类间距离最大,所以可以看做是降维;

拉普拉斯特征映射,通过特征映射使用最小的 m m m 个非零特征值对应的特征向量来实现降维。

#####4、关于线性回归的描述,以下正确的有:

A. 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B. 基本假设包括随机干扰下是均值为0的同方差正态分布
C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量

D. 在违背基本假设时,模型不再可以估计
E. 可以用DW检验残差是否存在序列相关性
F. 多重共线性会使得参数估计值方差减小

######解析:
一元线性回归的基本假设有:
1)随机误差项是一个期望值或平均值为 0 0 0 的随机变量;
2)对于解释变量的所有观测值,随机误差项有相同的方差
3)随机误差项彼此不相关;
4)解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5)解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6)随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
多重共线性使参数估计值的方差增大。

#####5、关于相关系数,下列描述中正确的有:

A. 相关系数为0.8时,说明两个变量之间呈正相关关系
B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强
C. 相关性等于1相较于相关系数等于0,前者的相关性更强
D. Pearson相关系数衡量了两个定序变量之间的相关程度
E. Spearman相关系数可以衡量两个定序变量之间的相关程度
F. 相关系数为0.2相较于-0.8,前者的相关性更强

######解析:
定序测量数据可以用 s p e a r m a n spearman spearman 相关系数,不能用 p e a r s o n pearson pearson 相关系数。

相关系数 ρ X Y ρ_{XY} ρXY 取值在 − 1 -1 1 1 1 1 之间,
ρ X Y = 0 ρ_{XY} = 0 ρXY=0 时,称 X , Y X, Y X,Y 不相关;
∣ ρ X Y ∣ = 1 | ρ_{XY} | = 1 ρXY=1 时,称 X , Y X, Y X,Y 完全相关,此时, X , Y X, Y X,Y 之间具有线性函数关系;
∣ ρ X Y ∣ &lt; 1 | ρ_{XY} | &lt; 1 ρXY<1 时, X X X 的变动引起 Y Y Y 的部分变动, ρ X Y ρ_{XY} ρXY 的绝对值越大, X X X 的变动引起 Y Y Y 的变动就越大, ∣ ρ X Y ∣ &gt; 0.8 | ρ_{XY} | &gt; 0.8 ρXY>0.8 时称为高度相关,当 ∣ ρ X Y ∣ &lt; 0.3 | ρ_{XY} | &lt; 0.3 ρXY<0.3 时称为低度相关,其它时候为中度相关。

#####6、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?

A. ∑(N/K-Cij)(N/K-Cij)越小越纯
B. -∑CijLOG(Rij)越小越纯
C. ∑(1-Rij
Rij)越小越纯

D. ∑(1-Rij)(1-Rij)越小越纯
E. ∑(1-Rij)^2越小越纯
F. -∑Rij
LOG(Rij)越小越纯

######解析:
信息熵 E n t = − ∑ R i j l o g ( R i j ) Ent = -\sum R_{ij}log(R_{ij}) Ent=Rijlog(Rij) E n t Ent Ent 的值越小 , 则纯度越高, F F F 正确, B B B F F F 类似,差一个常数,故 B B B 正确;

基尼系数 G i n i = 1 − ∑ R i j 2 Gini=1 - \sum R_{ij}^2 Gini=1Rij2, G i n i Gini Gini 越小,则纯度越高, C C C 类似于基尼系数的公式,故 C C C 正确;

基尼系数 G i n i = 1 − ∑ R i j 2 Gini = 1 - \sum R_{ij}^2 Gini=1Rij2 越小越纯即 ∑ R i j 2 \sum R_{ij}^2 Rij2 越大越纯,故 D 、 E D、E DE 错误;

A A A 明显错误。

#####7、excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括:

A. index+match
B. vlookup

C. hlookup
D. find
E. if
F. like

######解析:
E x c e l Excel Excel M A T C H MATCH MATCH 函数可以返回指定内容所在的位置,而 I N D E X INDEX INDEX 又可以根据指定位置查询到位置所对应的数据,结合使用,我们可以返回指定位置相关联的数据;

E x c e l Excel Excel 里根据一个工作簿的一个工作表的 A A A 列内容搜索另外一个工作簿对应 A A A 列的 B B B 列值,在 s h e e t 1 sheet1 sheet1 B 1 B1 B1 利用 v l o o k u p vlookup vlookup 函数可以实现。

##单选题
#####8、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测?

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

######解析:
A R AR AR 模型是一种线性预测,即已知 N N N 个数据,可由模型推出第 N N N 点前面或后面的数据(设推出 P P P 点),所以其本质类似于插值。

M A MA MA 模型( m o v i n g   a v e r a g e   m o d e l moving\ average\ model moving average model)滑动平均模型,模型参量法谱分析方法之一。

A R M A ARMA ARMA 模型( a u t o   r e g r e s s i v e   m o v i n g   a v e r a g e   m o d e l auto\ regressive\ moving\ average\ model auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比 A R AR AR 模型法与 M A MA MA 模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。

G A R C H GARCH GARCH 模型称为广义 A R C H ARCH ARCH 模型,是 A R C H ARCH ARCH 模型的拓展, G A R C H GARCH GARCH 对误差的方差进行了进一步的建模,特别适用于波动性的分析和预测。

另外, A R 、 M A 、 A R M A AR、MA、ARMA ARMAARMA A R M A ARMA ARMA 的三种基本形式, A R M A ARMA ARMA 是混合了 A R 、 M A AR、MA ARMA,所以这三个存在内在联系,排除法也可以确定选择 D D D

#####9、在以下不同的场景中,使用的分析方法不正确的有:

A. 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C. 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

######解析:
预测消费需要用回归模型来做。而不是聚类算法。

#####10、关于正态分布,下列说法错误的是:

A. 正态分布具有集中性和对称性
B. 正态分布的均值和方差能够决定正态分布的位置和形态
C. 正态分布的偏度为0,峰度为1
D. 标准正态分布的均值为0,方差为1

######解析:
偏度 ( S k e w n e s s ) (Skewness) (Skewness) 是描述某变量取值分布对称性的统计量。

峰度 ( K u r t o s i s ) (Kurtosis) (Kurtosis) 是描述某变量所有取值分布形态陡缓程度的统计量。

正态分布的偏度和峰度均为 0 0 0

#####11、SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示?

A. 零个字符
B. 1个字符
C. 多个字符
D. 以上都可以

######解析:
没什么可说的,通配符 % \% % 可以匹配零个或者 1 1 1 个字符,也可以匹配多个字符,所以 A 、 B 、 C A、B、C ABC 都对,那么选 D D D

#####12、一组数据,均值>中位数>众数,问这组数据?

A. 左偏
B. 右偏
C. 钟型
D. 对称

######解析:
“偏” 可以理解为哪边数据较少朝哪儿偏;
众数,频率最高的数,也是峰值对应的数;
中位数,中间位置的那个数,正态分布图对半分的那条线对应的数;
当中位数 &gt; &gt; > 众数时,很明显数据是右偏的。

#####13、65,8,50,15,37,24,( )。括号中的数字是( )

A. 25
B. 26
C. 22
D. 27

######解析:
可以将序列拆分为两个序列:
奇数项: 65 、 50 、 37 65、50、37 655037
偶数项: 8 、 15 、 24 8、15、24 81524
奇数项依次减少 15 、 13 15、13 1513,偶数项依次增加 7 、 9 7、9 79,所以下一个是奇数项,应该是上一个奇数项减少 11 11 11 26 26 26

#####14、有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少?

A. 0.3333
B. 0.25
C. 0.2
D. 0.1667

######解析:
2 5 ∗ 1 4 ∗ 2 = 0.2 \frac{2}{5} * \frac{1}{4} * 2 = 0.2 52412=0.2

#####15、以下哪个是常见的时间序列算法模型?

A. RSI
B. MACD
C. ARMA
D. KDJ

######解析:
时间序列算法模型是指采用某种算法(可以是神经网络、 A R M A ARMA ARMA等)模拟历史数据,找出其中的变化规律,回归滑动平均模型( A R M A ARMA ARMA 模型, A u t o − R e g r e s s i v e   a n d   M o v i n g   A v e r a g e   M o d e l Auto-Regressive\ and\ Moving\ Average\ Model AutoRegressive and Moving Average Model)是研究时间序列的重要方法,由自回归模型( A R AR AR 模型)与滑动平均模型( M A MA MA 模型)为基础混合构成。

#####16、以下对k-means聚类算法解释正确的是:

A. 能自动识别类的个数,随即挑选初始点为中心点计算
B. 能自动识别类的个数,不是随即挑选初始点为中心点计算
C. 不能自动识别类的个数,随即挑选初始点为中心点计算
D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算

######解析:
k − m e a n s k-means kmeans 聚类算法过程:
1)适当选择 c c c 个类的初始中心;
2)在第 k k k 次迭代中,对任意一个样本,求其到 c c c 个中心的距离,将该样本归到距离最短的中心所在的类;
3)利用均值等方法更新该类的中心值;
4)对于所有的 c c c 个聚类中心,如果利用 2 、 3 2、3 23 的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。

可以看出需要选择类别数量,但初次选择是随机的,最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选 C C C

#####17、想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?

A. 从中抽取的500名学生的身高
B. 上海市全部小学生的身高
C. 从中抽取的500名小学生
D. 上海市全部小学生

######解析:
这个题有些奇葩,纯粹送分题,我怎么感觉小学就已经讲过这种难度的样本问题,类似于拿 1 + 1 1 + 1 1+1 等于几的问题问大学生,难道是为了咋呼人?

全部评论

相关推荐

点赞 评论 收藏
分享
点赞 评论 收藏
分享
炫哥_:为什么都读硕士了?项目还是网上的项目(真心发问)
最后再改一次简历
点赞 评论 收藏
分享
避坑恶心到我了大家好,今天我想跟大家聊聊我在成都千子成智能科技有限公司(以下简称千子成)的求职经历,希望能给大家一些参考。千子成的母公司是“同创主悦”,主要经营各种产品,比如菜刀、POS机、电话卡等等。听起来是不是有点像地推销售公司?没错,就是那种类型的公司。我当时刚毕业,急需一份临时工作,所以在BOSS上看到了千子成的招聘信息。他们承诺无责底薪5000元,还包住宿,这吸引了我。面试的时候,HR也说了同样的话,感觉挺靠谱的。于是,我满怀期待地等待结果。结果出来后,我通过了面试,第二天就收到了试岗通知。试岗的内容就是地推销售,公司划定一个区域,然后你就得见人就问,问店铺、问路人,一直问到他们有意向为止。如果他们有兴趣,你就得摇同事帮忙推动,促进成交。说说一天的工作安排吧。工作时间是从早上8:30到晚上18:30。早上7点有人叫你起床,收拾后去公司,然后唱歌跳舞(销售公司都这样),7:55早课(类似宣誓),8:05同事间联系销售话术,8:15分享销售技巧,8:30经理训话。9:20左右从公司下市场,公交、地铁、自行车自费。到了市场大概10点左右,开始地推工作。中午吃饭时间大约是12:00,公司附近的路边盖饭面馆店自费AA,吃饭时间大约40分钟左右。吃完饭后继续地推工作,没有所谓的固定中午午休时间。下午6点下班后返回公司,不能直接下班,需要与同事交流话术,经理讲话洗脑。正常情况下9点下班。整个上班的一天中,早上到公司就是站着的,到晚上下班前都是站着。每天步数2万步以上。公司员工没有自己的工位,百来号人挤在一个20平方米的空间里听经理洗脑。白天就在市场上奔波,公司的投入成本几乎只有租金和工资,没有中央空调。早上2小时,晚上加班2小时,纯蒸桑拿。没有任何福利,节假日也没有3倍工资之类的。偶尔会有冲的酸梅汤和西瓜什么的。公司的晋升路径也很有意思:新人—组长—领队—主管—副经理—经理。要求是业绩和团队人数,类似传销模式,把人留下来。新人不能加微信、不能吐槽公司、不能有负面情绪、不能谈恋爱、不能说累。在公司没有任何坐的地方,不能依墙而坐。早上吃早饭在公司外面的安全通道,未到上班时间还会让你吃快些不能磨蹭。总之就是想榨干你。复试的时候,带你的师傅会给你营造一个钱多事少离家近的工作氛围,吹嘘工资有多高、还能吹自己毕业于好大学。然后让你早点来公司、无偿加班、抓住你可能不会走的心思进一步压榨你。总之,大家在找工作的时候一定要擦亮眼睛,避免踩坑!———来自网友
qq乃乃好喝到咩噗茶:不要做没有专业门槛的工作
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务