更新,当天下午六点约HR面4.1号 HR面完当晚面试官加微信口头通过(下图)发面经攒下人品哈,今天刚面完, 不知道结果咋样,等后面流程吧排版方面后续还会整理,最近比较忙先把问题放出来给准备的同学,目前排版比较乱还请谅解一面3月11日 晚上7七点 , 预定时间是 45min 实际面了一个小时, 面完20min左右收到了二面的邀请前面的问题总体突出一个场景为什么选择大数据 这个岗位了解哪些大数据组件hdfs 中的文件存储格式Yarn 的几种调度策略你知道Hadoop 的具体业务场景吗 实际中是怎么搭建并使用的 问了hive与hdfs的区别hive的内部表和外部表用hive删除一个表 具体发生了那些流程么 sql题目:文章id 类型type 作者author第一问找出 不同类型的 文章有多少第二问 找出不同类型的作者有多少 一开始用的是 select type, count(distinct author) from t group by type,面试官说没问题,然后问我 有没有优化方案 我说有后来又写了一个比较难的sql(只是比方才那个难但也不是很难)网页url 点击时间 还有一些用不到的字段 让找出每个网页的最新点击时间算法题: 两个列表找相同元素(不得不提一嘴数开这个岗位对算法要求真的低)面试官最后对我的评价是 能力不错,就是缺乏具体的业务场景经验 后面就是反问了反问之前还问一句: 手上事情少时怎么做, 手上忙不过来了怎么办然后问了我一句 我以为只有小公司才会问的问题 给我3个任务 都挺紧的 ,都要这个周末交,这个任务量是完全超出我的能力的,这种情况下你会怎么做 反问先问了base如果我要进入这个岗位的话,我需要在哪些方面再好好准备一下及学习的建议关于岗位的一些内容,具体做什么用什么技术栈等等面试结束20 分钟约二面3月24 号 二面 东北老哥面的 老哥中间出差时间隔得比较久总体: 问的很细,很深 ,问底层,问这么做的原因自我介绍就感到强大的压力: 你介绍一下你大学期间 上过的这些课,或者看过的书, 参加过的比赛或者做过的这些项目等等这些 里面和大数据相关的 有哪些技术,围绕着这些来详细讲一讲吧(总之别人问自我介绍就是说 自我介绍一下吧, 这次加了一个超长的前缀,他说完我突然感觉我根本没那么多可讲的)业务方面: 对于需求方最重要的是什么? 交付方最重要的是什么范式建模 和 维度建模 相关的差异性, 区别 ,适用场景范式建模怎样保证数据一致性的提到维度建模 先想到 哪三个关键词? (维度表事实表,还有一个是什么?)问了怎么去设计一个维度表,从什么方面去考虑范式建模 维度建模 在 olap oltp 有什么 好处/弊端 hadoop一开始只有两个部分,hdfs 文件存储系统和MapReduce计算引擎, 在hadoop 某个更新的版本加了Yarn , 解决什么问题? MR 和 后来的一些计算引擎 比如spark 什么的就主要是 shuffle为重点吧,那你解释一下 mapreduce 的shuffle 都发生了什么过程,我指的是 reduce之前的shuffle partition 分区是怎么决定数量的, 或者什么时候决定的数量 用java 写MR 程序时 分区那里 继承子类对象时 就做了一个事是什么?(哈希取模)reduce拉取之前为什么要 合并? 不合并行不行 ? spark刚刚发行的那个版本 比 mr 快的 两个最主要的原因 : 关于数据倾斜 我们也是经常提, 有三种方案, 第一种是 方案本身和数据倾斜没有关系但是能 缓解数据倾斜带来的问题, 第二种是hive相关的一些参数的配置了解 第三种是spark里面怎么处理数据倾斜的sql题:找互关的人提前说了这是在大数据的范畴中,要考虑性能(暗示不要用大表join)from_id to_id 1 2 2 1 3 4 4 5反问环节问了业务还有该怎么学这些,面试官给我推了一本书,这里我也给没看过的同学推荐一下,叫 kimball的维度建模 ,这本书在行业内几乎是指导教材一样的地位了,可我只是第一次听说 大概看了一下前面好多回答不上来的在这本书里都有答案最后的时候说因为这是带转正的所以按的是校招的标准,不然我也不会问这么严(他好像知道自己问的很难),暗示要好好准备三面 面了两个小时多,我感觉不光是我身边没有,这在网上都算是很长时间的面试了,高强度拷打,面完之后脑袋都感觉懵懵的当天下午三点一直面到五点多,第二天晚上快十一点 通知我二面过了 约三面,中间一度以为自己凉了3.27 部门主管 三面自我介绍未来职业规划数据库事务,二范式三范式是怎么实现的搭建过集群吗? 搭建集群的时候遇到有什么问题数据结构 如 队列,栈,堆链表这些hive 和spark 引擎的区别mapreduce 执行流程算法题 手写快排 + 二分查找变种写完算法后问了各个排序的时间复杂度又问了怎么计算时间复杂度和空间复杂度总体30min差不多,很简短整体流程就是 他问一句 我说一堆 听完后他点点头 然后问下一句我又说一堆 三面比二面简单太多,问的东西都答下来了,面试官很和蔼,感觉有戏字数原因先写这么多,本来想把当时所有回答都带上的,目前没那么多时间整理, 需要的可以私信我,有详细介绍当时的回答和正确的回答许愿OC,球球了