米塔碳大数据开发岗位面试经验分享 第2弹!!!
基于上一期的问题我再进行一些补充
4.Kafka 高性能原理
- 为什么 Kafka 速度快? 答案通常涉及顺序读写、零拷贝、页缓存等。
-回答: 用直观语言说明 Kafka 的顺序写特性,以及操作系统页缓存对性能的提升作用。
- 削峰和解耦的具体实现?
-回答:用自己的话讲一下如何通过调整生产者的 batch.size 和 linger.ms 来削峰,以及如何通过消费者组实现解耦。
5.Hudi 与数据湖
- Hudi 表的类型有哪些?MOR 和 COW 的特点是什么?
-回答:讲一下MOR和COW是什么/有什么区别。前者适合读取频繁的场景,而后者更适合写入密集的场景。
- 是否遇到过小文件问题,如何解决? 比如,HAR 归档或动态分区合并文件。
-回答:我这主要是说Compaction 策略来合并小文件。
6.常见的大数据工具及同步流程
- 数据同步工具:DataX、Maxwell、CDC 的使用场景。
-回答:优缺点+使用场景。这不用多说了哈~按照这种结构就好
- 数据治理:小文件合并、无用表清理。
-回答:提到通过定期调度脚本清理小文件,以及使用 Hive 元数据清理工具保持仓库整洁。
总的来说米塔碳这次面试让我深刻意识到技术栈的重要性。像 Flink、Kafka、Hudi 这些工具是当下大数据开发的核心,熟悉它们的原理和实际应用可以让你脱颖而出。同时,数仓建模和数据治理是基础中的基础,任何想从事大数据开发的人都要扎实掌握!回答问题时也要结合实际经验,更有说服力。
ps:面试官很有趣哈~话很有梗但也非常专业,我有些缺失的点他最后都会给我讲明白,蛮好的!
#程序员##面试时最害怕被问到的问题##大数据##米塔碳#