携程 |数据分析工程师 面经 社招
- 携程
- 一面
- 怎么在海量数据中找出重复次数最多的一个?
- 上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。 方案:上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了,可以用第2题提到的堆机制完成。
- 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
- spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理
- 我们工作需要用到一点AI算法,你挑一个讲讲吧
- 问了dbscan
- 问了核函数
- 现场写SQL
- 随机森林
- 数据清理
- 二面
- 给一个实际场景,怎么分析数据,怎么提取数据特征
- 怎么做恶意刷单检测
- 你系统的学习过机器学习算法吗?
- 选个讲下原理吧K-Means算法及改进,遇到异常值怎么办?评估算法的指标有哪些?
- 数据预处理过程有哪些?
- 随机森林原理?有哪些随机方法?
- PCA
- 还有一些围绕着项目问的具体问题
- 参加过哪些活动?
- hive?spark?sql? nlp?
- XGBOOST
- 还问了数据库,spark,爬虫(简历中有)
- 三面
- 具体案例分析,关于京东商城销售的
- Linux基本命令
- NVL函数
- LR
- 数据库与数据仓库的区别
- 手写SQL
- SQL的数据类型
- C的数据类型
- 分类算法性能的主要评价指标
- roc图
- 查准率查全率
- 数据缺失怎么办
- 内连接与外连接的区别