京东零售数据开发一面(凉经)
在这炎热的夏天让我心底来个透心凉吧
找实习的时间太晚了所以心中很焦虑,结果就这样华丽丽的葬送了机会啊。面试官还是挺好的,问的问题基本都是数据开发的必考题目,首先是spark的shuffle机制(没答上来,这也是整个面试崩盘的开始)下面是从网络上找到的答案:前一个stage 的 ShuffleMapTask 进行 shuffle write, 把数据存储在 blockManager 上面, 并且把数据位置元信息上报到 driver 的 mapOutTrack 组件中, 下一个 stage 根据数据位置元信息, 进行 shuffle read, 拉取上个stage 的输出数据。啊,直接给我问蒙圈了,只好回答不会。接着面试官问了下哪些算子会引起shuffle,我回答各种by类,接着面试官问groupby算子的作用是什么,我答,对接收到的元素进行分组......下面是网络参考答案groupBy算子接收一个函数,这个函数返回的值作为key,然后通过这个key来对里面的元素进行分组。之后问哪些算子还可以产生shuffle?这我想了想只好坦白不记得了因为说了前提是不用join函数,之后得到的答案是partitionby操作。spark告一段落,接着是Linux,如何提交任务能够产生日志?nohup sh xxx.sh > xxx.log & 那么如何不产生日志?nohup sh xxx.sh > /dev/null 2>&1 & 接着问了我一些学校里的东西;在了解差不多之后出了两道极简SQL题目,一道HIVE字符串分隔函数(本质上是一道行转列函数)lateral view函数就能解决。在这之后问我用没用过正则表达式,我说我只会写一些很简单的,然而在我写完她出的题目之后她的评价是-看起来不像有用过的样子......凉凉。
不过面试官态度还是很好,鼓励我好好学。虽然已经知道凉了。(话说这种话谁都会说吧??)