字节-本地生活-大数据开发一面

介绍项目
说一下遇到的难点
项目的核心指标就是**的占有率吗?
怎么验证数据的准确性?
有遇到过数据对不齐的时候吗,怎么发现的。
讲一下数仓分层的好处
如果需求方想临时插一条数据进数仓,怎么解决。答找后端更新数据,我再重刷。
除了这个办法呢?能不能在数仓中直接insert一条数据。
为什么不建议直接往同一个分区追加新的数据?
为什么要选择数据开发?别人都说数据开发是sql boy,你怎么看这句话。
讲一下mapreduce
map数量和reduce数量分别由什么决定
讲一下spark和hive的区别
RDD是什么,弹性分布式数据集中的弹性怎么理解?
mysql和hive的区别
讲一下jvm中的gc算法
三次握手
http和https的区别
sql题:计算连续登录三天的用户。
全部评论
感谢分享
2 回复 分享
发布于 09-05 23:40 陕西
日常实习吗
点赞 回复 分享
发布于 09-06 11:52 广东
友塔游戏
校招火热招聘中
官网直投
请问有后续吗
点赞 回复 分享
发布于 09-07 00:29 江苏

相关推荐

1.自我介绍2.实习介绍3.实习工作内容下游使用方主要有那些?4.AI团队数据支持 他们使用这个数据做的什么5.除了对表的支持之外,是否在计算层面做过一些优化6.boradcast join和sortmergeJoin的区别和 使用场景的不同然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这里全程拷打实时7.FLink窗口30s 步长5s 窗口触发的时间是在5s触发还是30s之后触发8. 如果说这个任务是从checkpoints恢复出来的 那他第一次是在5s之后触发还是30s9.Flink 之中窗口的计算大多时候会导致整点进行触发(有可能导致很多不同的任务再同一个时间段使用资源导致资源紧张),你如何避免窗口不在整点进行触发呢10.Flink的状态有哪些11.valueState 和 keyState的区别  这一步回答的不太好,说想问的是这两个在使用场景上的不同12.上游是kafka 中间存在shuffle,晚高峰出现lag 你该怎么解决 说的提高并行度13.如果是kafka单个partition导致的lag 你该怎么解决呢 回答的窗口触发计算使用预聚合、kafka提高分区数 进而让下游Flink也提高并行度,回答的貌似不太满意,之前一直做的离线,实时确实不太会14 kafka如何保证的数据不重复且不遗漏15 kafka那些手段保证了吞吐量这么大后续开始拷打计算机基础,os和计算机网络一点没复习,心理更凉了16 操作系统进程通信有哪些方式    说了有管道和SharedMemory这几种17 是否了解SharedMemory的实现18 socket是否有了解 说了下socket以及spark使用netty这种通信架构19 netty 在spark怎么使用的20 close wait状态的理解这里计网和os回答的不太好,开始怀疑是否是计算机科班出身21 java的HashMap底层如何实现的22 HashMap的数组能使用arraylist来实现吗23 二叉树的锯齿状遍历(需要自己构建TreeNode和输入输出)自己写了20分钟 写了个reverse的版本,面试官不满意,最后口述了个双端队列的思路(减少reverse的遍历)感觉这轮面试又G了,我不知道这是不是字节的正常难度,每次面试字节都是高强度拷打,有点自闭了
查看16道真题和解析
点赞 评论 收藏
分享
9 39 评论
分享
牛客网
牛客企业服务