快手数分一面

# 一面60min
- 自我介绍&实习经历
- 搜索电商gmv下降,如何分析?
- 如何量化归因每个渠道对于搜索gmv的下降贡献(每个渠道体量不同的情况下)
面试官思路:构造一个统计量(忘了是啥)同时考虑品类的体量和变化值
- 用回归做归因合适吗?
面试官思路:不合适,因为有些爆品没有历史数据

abtest

- 如何计算样本量
- 设计abtest判断入口很深的功能变动对于整体的订单取消率是否有影响时,该功能的用户使用次数很低应该怎么处理(样本量过小)
面试官思路:样本是否能代表总体

两道sql

1. 计算GPA
exam_table(student_id, score, course_id, exam_time)
course_table(course_id, credit)
面试官说有问题,关于gpa的计算方式上有分歧,但是没听懂面试官的思路是啥…
```sql
SELECT student_id, sum(c.credit*e.score)/sum(c.credit) as GPA
FROM exam_table as e
JOIN course_info as c
USING course_id
GROUP BY student_id;
```

1. 计算次日留存率、七日留存率
用户活跃表(user_id, p_date)
当时没写出来,面完后写的,不确定是否正确
```sql
SELECT t1.p_date, count(distinct t2.user_id)/count(distinct t1.user_id) as 次日留存率
FROM table t1
LEFT JOIN table t2
ON t1.p_date=date_sub(t2.p_date, interval 1 day) and t1.user_id=t2.user_id;
```

次日留存率的定义为:t+1日中在t日活跃过的活跃用户数/t日活跃用户数
全部评论
请问是实习还是春招
点赞 回复 分享
发布于 2023-04-24 18:48 福建
留存计算不对
点赞 回复 分享
发布于 2023-04-25 07:27 北京
求问友友,这是什么部门的数分实习岗
点赞 回复 分享
发布于 2023-04-28 13:16 香港
您好,请问面试时写sql题需要提前准备好本地环境吗
点赞 回复 分享
发布于 2023-05-22 19:01 北京

相关推荐

任务一1 ,读取数据 本地数据 pandas的read_csv('数据')sklearn数据make_moons X,y=make_moons()2 ,认识数据本地数据 前几行 后几行 数据的描述性统计信息 基本信息 数据的总条数 特征总数sklearn数据:拿到特征和标签 使用pandas进行转换合并3, 数据预处理缺失值(有:填充)重复值(如果)异常值(iqr:填充)4 ,绘图分析条形图 统计图 直方图 热力图 箱型图任务二5 ,特征选择以及处理计算相关性corr()、使用热力图绘制查看相关性获取特征和标签 pop()对标签进行数组转换 对列进行补充reshape(-1,1)对特征进行缩放 有时标签缩放降维 维度数默认为二维数据切分任务三6,模型应用分类模型:逻辑回归、svm当中的svc、决策数 集成学习 Bagging(传入分类模型、逻辑回归。svm、决策树(Bagg+决策树))、Adaboost(传入分类模型、逻辑回归、svm,决策树)、Randomforest(随机森林模型 不需要传入模型)网格搜索交叉验证确认模型当中参数逻辑回归 C:[0.01-100]svm  C:[0.01-100] ,kernel:['rbf','linear','poly']集成学习:确认的是模型的数量[50,100,150]回归模型:一般线性回归模型岭回归拉锁回归|套索回归随机森林回归网格搜索交差验证岭回归alpha拉锁回归|套索回归alpha随机森林回归 确认的是模型的数量[50,100,150]写模型的相关指标:准确率 召回率 f1分数 混淆矩阵 分类报告 roc曲线 auc数值 写分类模型的学习曲线信用卡预测需要对数据二次划分 划分子集数据 重新使用各个模型对子集数据进行二次训练:需要观察各个模型在不同数据量下有什么 样的表现 需要文本说明并对模型提出优化措施并进行改正#牛客AI配图神器#
点赞 评论 收藏
分享
评论
7
64
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客企业服务