面试遇到的数据挖掘问题

作者:Ivonne
链接:https://www.nowcoder.com/discuss/240139?type=post&order=time&pos=&page=2
来源:牛客网

面试准备参考资料

统计知识:

知乎ABtest和假设检验、流量分配

https://zhuanlan.zhihu.com/p/36384858

人人都是产品经理-吆喝科技-AB测(其他文章也可以看看)

http://www.woshipm.com/u/96204/page/3

业务类:

快手商业化提速

http://www.woshipm.com/it/1845819.html

快手与抖音功能对比:观看体验和评论功能

http://www.woshipm.com/evaluating/990676.html

产品日活DAU下降,我该如何着手分析?

http://www.woshipm.com/data-analysis/2467030.html

竞品分析报告:B站 VS A站 &抖音

http://www.woshipm.com/data-analysis/2589190.html

面经类:

数据分析岗面试笔试题汇总

https://www.nowcoder.com/discuss/100521?type=post&order=time&pos=&page=2

逻辑回归和普通线性回归的区别;逻辑回归和随机森林的区别;有没有用过XGboost,讲一下随机森林的原理

逻辑回归和普通线性回归的区别;逻辑回归和随机森林的区别;有没有用过XGboost,讲一下随机森林的原理

准确率和召回率的定义
梯度下降有了解吗
讲一下交叉验证

SQL手撕连续3天以上存在记录的数据,并求出对应金额总和

准确率和召回率的定义
梯度下降有了解吗
讲一下交叉验证

SQL手撕连续3天以上存在记录的数据,并求出对应金额总和

会用sql吗?hive和mysql的区别
PDD电话面试
作者:Lanny靓儿🎈
链接:https://www.nowcoder.com/discuss/228882?type=post&order=time&pos=&page=1

1.sql题:
已知一个订单表,有字段【订单号】,【日期】,【下单时间】,【下单金额】,【商品一级类目】,【商品二级类目】
请求最近7天内每一个一级类目下成交总额排名前3的二级类目。说一下思路:
1.先筛时间7天内,datediff(now(),日期)<=7
2.分组group by一级类目
3.sum开窗求每个二级类目销售总金额,sum(下单金额) over(partition by二级类目) as total_amt
4.再用rank(total_amt) over() rk rk in[1,2,3]或order by total_amt 结合Limit 3选前3。

2.自我介绍:介绍了自己做数据分析和挖掘的实习经历和感想。
3.分析和挖掘你更偏向哪个方向?
4.问项目细节
5.缺失值怎么处理?异常值怎么判断?
连续型我答用均值填充,又问离散型怎么弄,想了半天每想到,面试官提示介绍下极大似然估计法,最后说用众数去填充。
异常值看数据分布,均值、标准差,画图,箱线图判断等
6.模型的评价指标有哪些:
accuracy,precision,recall,F1,ROC,AUC
其他方面的评价:模型的稳定性,参数的显著性检验
7.过拟合是什么原因造成的,有哪几个方面?
自己答了模型层面上的,面试官一直问还有吗,最后他回答:从样本层面上有样本不均衡,维度过多,数据样本太少等问题。
开窗函数 SUM() OVER() 数据统计中一例使用

准确率和召回率的定义
梯度下降有了解吗
讲一下交叉验证

SQL手撕连续3天以上存在记录的数据,并求出对应金额总和

会用sql吗?hive和mysql的区别

最后是一个sql题,一张表有所有新旧员工的入职信息,员工号是会重复的,找到最新的员工的信息
我答的是用窗口函数,first_value()面试官不满意,我又说自连接,还不满意,让我再想想,后来我问,他说,row_number(),我自动归结成窗口函数一类的了。。。。

作者:靛蓝催化剂
链接:https://www.nowcoder.com/discuss/291085?type=post&order=time&pos=&page=1
来源:牛客网

VIVO:一面挂

泊松分布、二项分布、正态分布的区别。它们是什么类型的分布(离散or连续)?泊松分布的极限形式是什么?

对数据分析工作的理解。

Left join和full join的区别。索引的原理

怎么用Python做数据清洗工作

业务题:如何统计地铁1号线1天内的客流量。(在车上按照车厢进行统计)

  1. 一个SQL大题,两小问(10min做完),一个是计算不同观看时长区间的日均用户数量,一个是计算次日留存率

参考:SQL计算留存率 https://blog.csdn.net/MsSpark/article/details/86754301

作者:人丑就得多读书fjyy
链接:https://www.nowcoder.com/discuss/227633?type=all&order=time&pos=&page=1
来源:牛客网

笔试题一共60min,分选择题和3道问答题,简要说一下还记得的知识点:
1)商汤的数据工程师,比较偏考察概率论和建模等一些基本的数据统计方法的掌握:
如(数据挖掘150道考题:https://blog.csdn.net/u014365862/article/details/52526778)
1.k-nn最近邻方法在(样本较少但典型性好)的情况下效果较好
2.Presion和recall等分类算法的评价标准
3.不属于关联分析的关键要素是:满意度
4.SQL操作题:drop&delete
5.众数>中位数>平均数属于左偏分布
6.概率题:条件概率--因为不会,所以抄上了
S市A B两个区,人口比例为3:5,根据历史统计A的犯罪率为0.01%,B的犯罪率为0.015%,现有仪器新案件发生在S市,那么案件发生在A区的可能性有多大?? 28.6%

2)问答题:
1.数据预处理中,缺失值的处理方法
2.中心极限定理是什么,它有什么应用场景
中心极限定理:样本的平均值约等于总体的平均值
3.一条带有字关联、子查询的Sql语句,让我们评价它的检索速率(肯定效率低),并写一句效率高的改善

估计三号线每天的客流量

8.1-8.10每一天消费金额排名在101-195的user_id

汇总了一下面试中会出现的SQL题,希望对大家针对性准备算法岗/数据分析/BA面试有帮助。
目前的打算是还要写一个假设检验的汇总和机器学习的汇总。
之前写的概率论汇总: https://www.nowcoder.com/discuss/95737
另外欢迎大家讨论这些题和贡献自己遇到的题目。
推荐一个介绍SQL网站吧,是我和我同学找工作时经常看的:http://www.dscademy.com/languages/sql
餐馆菜单输出最贵的五道菜 https://www.nowcoder.com/discuss/94886
学校中有一个年级表,有两个核心字段,student_id和class_id,把年级中大于30人的班级查出来? https://www.nowcoder.com/discuss/94604
一题用到group by 和 having count 的sql题目 https://www.nowcoder.com/discuss/93651 这道题没什么信息量,主要是建议大家看一下group by xxx having的用法,例如这里有讲解http://www.dscademy.com/languages/sql/
有个表,里面有学生的name,还有成绩,让你统计一个班有几个学生 https://www.nowcoder.com/discuss/92802
有个表,叫你计算班级每个科目的平均分 https://www.nowcoder.com/discuss/92802
SQL有哪些聚合函数? https://www.nowcoder.com/discuss/92333
获取每个用户当天的订单量 答案:DateDiff(hh,datetime,getDate())<=24 https://www.nowcoder.com/discuss/92333
学校中有一个年级表,有两个核心字段,student_id和class_id,把年级中大于30人的班级查出来? https://www.nowcoder.com/discuss/92253
MySQL的外键?https://www.nowcoder.com/discuss/92253
MySQL连接查询?https://www.nowcoder.com/discuss/92253
一个成绩表,其中存放了学生信息和成绩信息,三列 id,subject,grade其中subject就是课程的id,如何将学生按总分排序?https://www.nowcoder.com/discuss/90819
找出每个班级里面的及格的人数和不及格的人数 https://www.nowcoder.com/discuss/90707
两个表TB_0(订单号,用户名,订单金额,下单时间,商品ID),TB_1(用户名,创建时间,余额)用SQL解答,(1) 提取用户余额>=10,半年前下过单买过ID=A,且半年内只买过ID=B的用户信息;(2)删去TB_1中重复值(只保留一条) https://www.nowcoder.com/discuss/89903
根据用户浏览页面的数据计算页面转化率 https://www.nowcoder.com/discuss/89156
查找二度好友 https://www.nowcoder.com/discuss/89156
根据商品交易记录找商品销量的中位数,然后对于销量超过中位数的商品找出超过中位数的时间点。 https://www.nowcoder.com/discuss/89156
写了个window function,但是对面说不可以用window function,那我写个子查询吧 https://www.nowcoder.com/discuss/89156
左连接数据会不会变多之类的 https://www.nowcoder.com/discuss/89124
订单表user_order结构和数据如下。请编写sql语句查出首次下单日期是2018年05月22号的用户数量,注意是首次下单。
id user_id product price create_date
1 234 坚果Pro2 1400 '2018-05-21'
2 234 锤子TNT 1400 '2018-05-21'
3 356 小米mix 1400 '2018-05-21'
4 357 硅胶娃娃 1400 '2018-05-21'
https://www.nowcoder.com/discuss/85584
招银网络科技的秋招笔试 https://www.nowcoder.com/discuss/82844
写两个sql语句,统计XX人数、选出课程编号不为XX的学生ID https://www.nowcoder.com/discuss/82538
V1,v2,v1,v3..求所有的v1,v2,v3中的最大值 https://www.nowcoder.com/discuss/82422
学生成绩表,求每个学科的最多最少分数和平均分,用了max,min,avg和group by https://www.nowcoder.com/discuss/82422
腾讯2018秋招笔试第九题 https://www.nowcoder.com/discuss/81888
酷狗笔试题 https://www.nowcoder.com/discuss/81811
count(1),count(*),count(列名) 这三个有什么区别 https://www.nowcoder.com/discuss/77924
求出中位数平均数和众数(除了用count之外的方法) https://www.nowcoder.com/discuss/77780
Join的几种操作的区别 left join / inner join / right join https://www.nowcoder.com/discuss/76933
union和union all的区别,谁的效率更高 https://www.nowcoder.com/discuss/76933
用distinct和用group by去重,谁的效率更高 https://www.nowcoder.com/discuss/76933
Sum与count区别 https://www.nowcoder.com/discuss/76357
输出学院每个班某课程的平均成绩 https://www.nowcoder.com/discuss/76357
一张学生表。把数学成绩前10的学生信息查出来。 https://www.nowcoder.com/discuss/75120
统计总成绩取前10名的学生。 https://www.nowcoder.com/discuss/75120
创建一个表 新增列到表里 https://www.nowcoder.com/discuss/74733
给了若干笔交易,每笔交易包含用户id和物品id,要求计算:对于每个用户,有多少其他用户和他购买了相同的物品。我先按物品id建hash然后按用户id建立hash最后计数。 https://www.nowcoder.com/discuss/74343
订单表结构为 (用户id,商品id),写一个sql语句,查询购买商品数最多的前十个用户;SELECT user_id,COUNT(product_id) FROM order_list GROUP BY user_id ORDER BY product_id LIMIT 0,10 https://www.nowcoder.com/discuss/70129
交易表结构为user_id,order_id,pay_time,order_amount。写sql查询过去一个月付款用户量(提示 用户量需去重)最高的3天分别是哪几天。写sql查询做昨天每个用户最后付款的订单ID及金额 https://www.nowcoder.com/discuss/69801
PV表a(表结构为user_id,goods_id),点击表b(user_id,goods_id),数据量各为50万?条,在防止数据倾斜的情况下,写一句sql找出两个表共同的user_id和相应的goods_id https://www.nowcoder.com/discuss/69801
表结构为user_id,reg_time,age, 写一句sql按user_id尾数随机抽样2000个用户 写一句sql取出按各年龄段(每10岁一个分段,如(0,10))分别抽样1%的用户 https://www.nowcoder.com/discuss/69801
用户登录日志表为user_id,log_id,session_id,plat 用sql查询近30天每天平均登录用户数量 用sql查询出近30天连续访问7天以上的用户数量 https://www.nowcoder.com/discuss/69801
表user_id,visit_date,page_name,plat 统计近7天每天到访的新用户数 统计每个访问渠道plat7天前的新用户的3日留存率和7日留存率 https://www.nowcoder.com/discuss/69801
学生表,课程表,成绩表,一条sql写出每门课程的及格和不及格的学生数量。 https://www.nowcoder.com/discuss/69172
表格中有A, B两列,分别是日期和比赛的胜/负情况,要求展示每个日期的胜负个数。https://www.nowcoder.com/discuss/67123
假设教师带了至少两门课,如何写sql语句可以让教师查出每门课的及格率。https://www.nowcoder.com/discuss/65668
Mysql主键和唯一索引的区别 https://www.nowcoder.com/discuss/59865
获取一列中最大的数。 https://www.nowcoder.com/discuss/59401

python中用什么做的特征选择。
A:feature_selection模块的selectKBest和selectPercentile
Q:选择标准
A:卡方检验

p值的含义
2. 怎么检验一个数据是否服从标准正态分布
3. 卡方检验和t检验

到家业务,团购/代金券的用户等级怎么划分。
答:用户忠诚度、使用深度、粘性等。日活/月活、平均打开次数、访问时长等。
用户的价值贡献。点评内容的贡献、GMV贡献、复购频率和客单价等。
用户本身的属性。新增,待留存等等。

全部评论

相关推荐

联通 技术人员 总包不低于12
点赞 评论 收藏
分享
无敌虾孝子:喜欢爸爸还是喜欢妈妈
点赞 评论 收藏
分享
三年之期已到我的offer快到碗里来:9硕都比不上9本
点赞 评论 收藏
分享
点赞 2 评论
分享
牛客网
牛客企业服务