百度 大数据研发实习

一面
实习深挖
对于高耗时任务的代码优化思路
如何发现不必要的扫表
sparksql和hivesql有什么区别
sparksql和hive on spark性能有差异吗,差异在哪
hdfs架构
datanode心跳机制
datanode挂了之后会怎么样,容错机制是怎么样
机架感知
有限内存下的一亿数据怎么排序
了解哪些shell命令
有a,b两个文件,存的都是id,写shell找出a中有但b中没有的id行
flink窗口计算相关
java反射是什么,作用场景,反射性能
数据质量是怎么保证的,完整性唯一性具体怎么实现的
反问 业务和工作内容 主要做离线还是实时
#面经##百度#
全部评论
大佬,简历要写成啥样才能有机会面试啊
1 回复 分享
发布于 2024-03-13 21:29 浙江
你这啥时候投的?我看最近都没有大数据研发的岗位
1 回复 分享
发布于 2024-03-13 16:24 河北
跟我两年前面试差不多内容
点赞 回复 分享
发布于 2024-03-24 13:57 浙江
佬,如何避免不必要的扫表,答案是啥
点赞 回复 分享
发布于 2024-03-14 18:16 北京
请问你是在哪投递的
点赞 回复 分享
发布于 2024-03-14 10:31 安徽
我发了饿了么的25届实习内推码,同学有需要可以自取,这次转正率超高可以一试
点赞 回复 分享
发布于 2024-03-13 15:54 江西

相关推荐

- 不问八股,不问项目,纯场景题考核,**以下问题均在电商下单的业务背景下**- 知道ER模型和维度模型吗  - 不要介绍概念,接下来以电商场景中的下单过程为背景,分别用两种模型诠释一下这个业务过程- ER模型中有这个下单过程有哪些实体哪些关系  - 商品和消费者的关系是多对多的吗- 维度模型中会有哪些维度表和哪些事实表- 线下的pos系统的数据和我们建表数据格式不一致,如何处理  - 数据清洗和数据格式转换- 业务场景:需要找到国庆期间的无效订单数量  - 无效订单:已下单未发货,已下单发货超过3天  - 订单表:订单id 时间  - 发货表:订单id 发货id 时间- 如果要连接这两个表,用什么join,为什么  - left,因为有订单信息不一定有发货信息,要保证订单信息的完整- 一个需求实现的全流程是什么样的  - 需求->分析其逻辑,划分出集合->对数据进行建模->清洗数据->写SQL->优化SQL- 这个全流程中,你认为ai可以协助数据开发工程师做哪一些工作  - 全部都可以协助,但是需要人工比对和把关- 那么如果AI可以做到整个全流程,数据开发工程师的价值又在哪里  - 目前已经有ai可以实现业务需求的全流程
查看22道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
03-20 10:25
亚马逊 开发 50w 博士其他
点赞 评论 收藏
分享
评论
15
45
分享

创作者周榜

更多
牛客网
牛客企业服务