整理最近面的大数据开发题目(字节,阿里,腾讯)
均已拿offer
字节:32*15 有期权
1.spark调优,spark数据倾斜体在项目中,具体在哪些场景出现了?
2.订单服务,仓储服务以及其他业务模块之前是怎么进行关联的?是通过消息队列异步的吗?
3.sql中row_number和rank的区别?
4.订单模块中,你主要做了哪些工作?
5.订单的整个流转过程?
6.rabbitmq怎么保证消息不丢失?
7.rabbitmq怎么避免重复消费?
8.rabbitmq中怎么去通过消息日志判断消息被消费了,简单说下过程。
9.你觉得你工作中有哪些方面能做的更好?
1、数据仓库和数据中台区别
2、数据仓库中有哪几类数据建模
网上解答:范式建模法,维度建模法,实体建模法
其中:维度建模法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市
3、对于缓慢变化的数据,在数据仓库中是如何处理的
4、如何建立用户画像指标的,如何维护
5、如何实施数据清洗的?从哪些方面着手
6、如若提供出去的指标有问题,如何解决和定位
阿里:35*14 80W期权
自我介绍
描述你的这个大数据的项目的业务
整体的数据链路是怎样的
整体的流程是怎样的,从数据进来到数据处理完的整体节点
你们的规模是怎样的
你在项目中主要负责什么
你在项目中担任什么样的角色
你学习大数据多久了
你怎样理解数仓,你们现在进行到哪一步
你了解的大数据组件有哪些
HDFS写流程
介绍下Kafka
HDFS 中向 DataNode 写入数据失败了怎么办
目前有没有实时计算或者离线计算的需求
hadoop2.x HDFS快照
Hive外部表和内部表
大数据学习方式,实践占比
Flume source的种类
有跟市面上其他产品对比过嘛
为什么采用Flume
channel的种类
公司采用的Mysql的是什么架构 --mgr组策略 主从 集群
数据同步会产生什么问题,如何解决
mysql的调优
如何发现慢查询以及如何解决慢查询的问题
最左原则
全文索引
间隙锁
volatile 原理
synchronized 原理
synchronized jDk1.6以后做的优化
synchronized的锁升级
ConcurrentHashMap的线程安全--源码
ThreadLocal原理
扩容机制
hashMap的扩容机制
腾讯:
## 一面
- 自我介绍
- 在工作中负责的内容
- 数仓分层
- Spark 任务遇见过哪些问题?怎么解决的
- 维表和事实表
- 事实表有哪些种类
- 项目组有哪些人,什么指责
- 有多少张表,是怎么管理的
- sql题
- join 时 on 和 where 语法
- 用户连续打卡天数
## 二面
- 自我介绍
- 在工作中负责的内容
- 数仓分层
- 主题是怎么划分的,从那一层开始,为什么
- 维表和事实表
- 事实表有哪些种类
- 数据质量是怎么保证的,有哪些方法保证
- 怎么衡量数仓的数据质量,有哪些指标
- 离线任务遇见过哪些问题,怎么处理的,如数据迟到、数据重复
- 怎么保证数据的一致性