泰科电子数据分析工程师社招面经
一面
统计教授多门课老师数量并输出每位老师教授课程数统计表
四个人选举出一个骑士,统计投票数,并输出真正的骑士名字
员工表,宿舍表,部门表,统计出宿舍楼各部门人数表
给出一堆数和频数的表格,统计这一堆数中位数
中位数,三个班级合在一起的一张成绩单,统计每个班级成绩中位数
交易表结构为user_id,order_id,pay_time,order_amount
PV表a(表结构为user_id,goods_id),点击表b(user_id,goods_id),数据量各为50万条,在防止数据倾斜的情况下,写一句sql找出两个表共同的user_id和相应的goods_id
表结构为user_id,reg_time,age, 写一句sql按user_id随机抽样2000个用户 写一句sql取出按各年龄段(每10岁一个分段,如(0,10))分别抽样1%的用户
问:Kmeans的原理
问:口答一个SQL题(要用到row number)
问:业务场景题,如何分析次日留存率下降的问题
二面
用户登录日志表为user_id,log_id,session_id,plat,visit_date 用sql查询近30天每天平均登录用户数量 用sql查询出近30天连续访问7天以上的用户数量
表user_id,visit_date,page_name,plat 统计近7天每天到访的新用户数 统计每个访问渠道plat7天前的新用户的3日留存率和7日留存率
你处理过的最大的数据量?你是如何处理他们的?处理的结果。
告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?
什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?
什么是:协同过滤、n-grams, map reduce、余弦距离?
如何设计一个解决抄袭的方案?
#深圳市西博泰科电子有限公司##社招##数据分析师##面经#