科大讯飞大数据工程师面经凉经

一面:
1、简述scala和java的主要区别,使用过程中。scala的版本。
2、scala的根缀表达式。
3、接口和特质的区别
4、大数据的排序、去重的算法。(快排在大数据是不适用的)bitmap、布隆过滤平时可了解过。
5、遇到过jar包冲突的情况吗?
6、yarn资源申请过程。资源响应、资源分配是怎么进行的。
7、容器是什么。什么东西调用这个机器的资源?container是以什么形式存在于内存当中。(本质上也是一种线程)。
8、yarn的源码看过吗?有从某个入口进去,把yarn资源调度的过程自己捋一遍。
9、hdfs的读写路径。
10、具体通过什么途径进行通信。rpc
11、文件读取的时候怎么确定当前的block在哪个datanode上,读数据使用什么算法确定最优的那个datanode。
12、文件写入过程中namenode发现文件以及存在或者创建者没有权限操作,会返回什么错误。
13、hive用过吗?hive的组件及各个组件的作用。优化器有哪些优化的措施。
14、hive和hdfs交互流程。操作数据时和hdfs怎么操作数据的。
15、hivesql写过吗,数据倾斜遇到过吗,怎么处理的?
16、手写sql,学生分数按序排名,输出每个学生前百分之三十的学生分数的平均数。
17、azkaban,别的任务调度oozie学过吗?现在azkaban用的比较少。
18、举下spark的transform和action的算子,并讲下区别。
19、spark的rdd原理。spark怎么把你的算子转化成rdd的?rdd之间的一些关系。rdd怎么提交到内存上计算的。
20、数仓为什么要分成这几层。原始数据是什么格式的?底层数据处理到dw层是怎么处理的?spark还是什么?如果原始数据是半结构化的数据/非结构化的数据怎么办?
21、维度表和事实表怎么区分。维度是手机号或者地址,会经常变更的维度,这种怎么处理?(渐变维度?)加个版本号是吧。
22、数据建模过程中,数据导入、数据处理、数据展示都使用哪些工具?flume和sqoop有什么区别?

二面:
1、简述hadoop
2、写文件流程
3、pipeline
4、spark本身的批处理用过吗?
5、scala的样例类和伴生对象

感觉二面是为了刷kpi,因为1面很差,被面试官直接说基础很差。。。

#科大讯飞##面经##校招##数据开发工程师#
全部评论
这谁顶得住啊
2 回复 分享
发布于 2020-09-29 16:29
一面这么难?
1 回复 分享
发布于 2021-06-22 18:14
这也问的太深了吧。。。
4 回复 分享
发布于 2020-09-22 16:30
老哥是社招吗?
点赞 回复 分享
发布于 2020-09-21 15:51
您好,这个"手写sql,学生分数按序排名,输出每个学生前百分之三十的学生分数的平均数。"前百分之三十要怎么写啊,用limit 0 , x吗,这里的x可以用0.3*count(*)这样的聚合函数?
点赞 回复 分享
发布于 2020-10-04 23:31
感谢面经分享,感觉很深啊。 第11是hdfs读取block的算法可以这样回答吗? 从3个地址中取出一个离客户端最接近的DataNode来读取Block;如果客户端本身就是DataNode,那么将从本地直接获取数据;当该最近的datanode的负载达到一定的量级,客户端就会将数据请求发给其他的datanode。还是说是那种数学类型的算法啊?
点赞 回复 分享
发布于 2021-06-20 18:31
你好,我想问一下二面之后多久知道挂了呀,我昨天面的二面,感觉也很像kpi,但是我还在等结果,如果确定挂了我就签其他公司了
点赞 回复 分享
发布于 2023-04-07 16:46 安徽
一面考的这是啥啊?数据开发嘛?
点赞 回复 分享
发布于 10-17 10:42 新加坡

相关推荐

不愿透露姓名的神秘牛友
11-09 09:26
点赞 评论 收藏
分享
11-06 09:46
门头沟学院 Java
白烁:***的快手还在入池,商业化池子里最起码几百个了,能有50hc都算谢天谢地了
点赞 评论 收藏
分享
评论
12
60
分享
牛客网
牛客企业服务