数据研发 - 快手(主站) - 一面凉经
- 在实习过程中输出的策略会输出到线上么?
- 你的产出是什么? (纠结的点在于制作的数据看板以及策略没有实际作用于线上或产生实际作用)
- 如何评估策略是否有效?如何衡量?如何判断能够帮助业务?有怎样的助力? 回答:遇到过数据来源的问题,进而改变筛选条件 (面试官总结为:上游数据来源加工质量问题)
- 那这个看板你更多的是应用于应用层还是配置层,有接触过底层么?从数据采集到数据加工到数据应用这整个的数仓分层的建设,有么? 回答:没有,当时实习的时候没有 之后做项目时,是有了解过
- 那介绍一下你对数据分层的理解和数据分层的作用 我,结合项目谈一下吧,简单说了说作用,会提升计算效率,逐层筛选,完成数据清洗 分层理解:面试前搜了搜,分五层,基本完整表述
- 有了解过你们数据底层是如何来存储的么? 回答基本都是Excel表格,也有纯文档形式的
- 你目前的数据都在本地,如果从HDFS访问的话,是需要上传,有了解过什么HDFS的文件格式么?常见的文件传输格式有哪些? 只接触过txt文本格式
- 看你简历上也写道Flink,那你有接触过这种实时计算场景么? 略了解,没有接触过
- 那你实习的时候是有写这种SQL是吧?
- 那我们写一道SQL题吧,窗口函数有了解过吗?目前有一张学生考试成绩表,分别有四个字段,我想统计分年级分科目,每个年级每个科目成绩Top3同学的信息
- 解释一下SQL执行顺序
- 你了解过窗口函数么?
- 有写过其他语言么?写一道算法题吧,给定一个无序数组,求第K大的数,简单说一下sort()内部的一些逻辑,分析时空复杂度
- 针对本题,有没有相对快排的方式,进行优化?
- 平时还有什么场景或者机会去了解大数据相关的组件和知识么? 创新创业项目和大作业
- 数据可视化部分你是用一些开源的么,还是怎么实现的? Python,帆软相关软件
- 有了解过当前比较火的数据处理引擎么?比如MapReduce和Spark,有了解过它们底层的一些原理么? 接触过MapRuduce
- 处理过程中会有一些Key的合并,包括从Map到Reduce这个过程中可能涉及到哪些排序?
反问环节:
团队主要工作:
项目: