度小满&百度大数据开发工程师实习面经

百度

一面

4.12被捞,4.13面试
自我介绍
然后开始问项目
问两个项目的流程,数据流,简要介绍中间组件的原理
然后问hive
感觉数据倾斜以及对数据倾斜的优化是面试官最喜欢问的
说了一下hive的join问题
同时给了一个场景题
比如在一个表有个u_id数量特别大怎么办
说修改hive参数或者可以考虑加个tag
面试官引导说还有别的方法并且和我介绍了一下
然后是一个算法题
求有序数组中绝对值最小的数
二分查找
接下来反问阶段

当场说了有二面,需要好好准备准备二面了
二面
时间4.14
自我介绍
之后也是介绍简历上的两个项目,数据流,技术栈,中间遇到的困难
接下来开始问hive
问了order by,sort by,cluster by,distribute by的区别
hive的内表和外表
sql问题(某一天登录了但是后一天没有登录的用户)
有没有用mapreduce完成过hive-sql计算,能不能简述一下流程
mapreduce在两表join的时候是怎样的
知道哪些linux命令
java的一些面向对象问题
除了java还会哪些语言
同时问了一下能实习多久,能不能到场实习
接下来是反问,并介绍了一下部门的业务

OC

4.15百度oc

度小满

度小满也是4.12捞的,然后4.13一面
自我介绍完了以后就开始问项目
项目流程,组件原理(MR,kafka)
这个项目当时的数据量很大吗?如果不用kafka用redis或者mysql能否支撑?
然后问了线程池的问题
接下来就是问我一些数据挖掘的东西
比如最小二乘回归,lasso,ridge在数学上怎么实现的
如果是那代码怎么实现?
如果不使用学习率有没有什么其他方法?
然后结合建模经验,介绍了一下多元回归比如LR
后面是几个算法题
给出三个点形成的矩阵,返回三角形面积
m个相同盘子,n个相同苹果,可以有空盘,有几种排列方式(递归,但是当时没想出来)
删除链表倒数第k个节点
接下来就是反问,说实时,离线和数据挖掘都会涉及
晚上就得到消息有二面了,继续好好准备吧
#实习##面经##百度##度小满##大数据开发工程师#
全部评论
kafka有问吗
1 回复 分享
发布于 2021-05-12 10:18
楼主二面结束多久oc的呀
点赞 回复 分享
发布于 2021-05-17 11:34
你好 想问一下线程池具体问了什么
点赞 回复 分享
发布于 2021-07-05 13:00
是要自己手撕一个线程池么
点赞 回复 分享
发布于 2021-07-05 14:08
度小满竟然还问数据挖掘的知识
点赞 回复 分享
发布于 2021-09-04 23:26

相关推荐

1. 自我介绍2. 从实习经历里挑一个比较亮点和难点讲一下3. 你对集群和分布式的理解4. 讲一下redis分布式锁和集群有什么关系?5. 在你的项目里有出现过消息重复消费和消息积压的情况吗?6. 开源你有没有碰到什么难处?7. 介绍一下你最熟悉的排序算法,有什么缺点?这些排序算法什么时候什么情况下会用到?8. Hash了解吗?比如怎么解决Hash冲突和常见的结构,讲讲HashMap的结构9. 你对于TCP和UDP的理解10. http是基于哪个协议?http和https的区别11. 你平常有碰到网络故障的经历吗,会怎么解决?比如一个网址打不开,你会怎么解决?12. 有使用过网络排查的命令吗13. TCP的流量控制怎么实现的14. 并发和并行的区别15. 用户态和内核态的区别,什么情况下会进入到内核态16. 线程和进程的区别17. 常用的linux命令举例,查看进程的话除了top还有什么命令18. MySQL的隔离级别。怎么避免幻读的19. 一个单机版的MySQL的存储量,性能已经达到了上限,你会采用什么措施进行改进?分库分表你有遇到什么真实的场景吗?简单介绍一下分库分表20. MySQL索引的底层数据结构21. 索引失效的情况22. SQL调优有什么经历?或者有什么了解?23. MySQL崩溃恢复机制你了解的有哪些?24. undolog和binlog有什么区别25. 常用的设计模式结合你的经历来讲26. 算法:lc:92:反转链表2
查看26道真题和解析
点赞 评论 收藏
分享
评论
10
38
分享
牛客网
牛客企业服务