字节 data 大数据二面

9.12 一面结束后半小时飞速约了二面,9.14 二面
- 自我介绍
- 为什么读研
- 为什么转专业
- 你对大数据的理解
- 介绍一下实习组内的分工、数仓架构
- 以商品域为例,数据的模型/表有哪些,从哪些角度评价数据模型
- 你们组具体的宏观的业务流程
- 具体是怎么和其他部门协作的,流程是怎么样
- 你是怎么理解数开的工作的,你个人的偏好是哪方向
- 数据库的范式、事务
- 范式建模、维度建模对比,适用具体场景
- 你了解哪些排序算法,详细讲讲冒泡排序和快速排序
- 对于小规模的数据比如学校成绩表、课程表等等建设数仓是否一定要使用维度建模
- 看你写了 kimball 的维度建模,你对维度建模的理解
- MR 流程
- MR 的并行度是由什么决定的
- 一个场景:两表Join,然后 group by 计算指标,写入一张表,这种场景可能会出现哪些潜在的问题
- 你有很多任务优化的经验,你的具体思路是怎样的
- 你之前谈到的数据质量,具体包括哪些,如何去实现的,以及如何量化
- 你了解 Doris,ClickHouse 之类的 OLAP 引擎吗,和 Hadoop、Hive、Spark 这些有什么区别,具体场景是哪些
- 你目前的秋招进度是怎样的,投了哪些公司
- 没做题
- 反问环节:业务、数仓架构、技术栈等
全部评论
国际商业化吗
点赞 回复 分享
发布于 2024-09-27 23:03 浙江

相关推荐

字节一面:1.面试官自我介绍+小组业务介绍:C/C++,GPU,异构计算,从上层的编译到下层异步执行2.机器学习有了解过吗...  学校选修课...3.自我介绍4.实习项目介绍5.项目里为什么用dpdk? 为什么要搞用户态协议栈,不搞原来内核的那一套?内核那一套可能有一些固定的额外的开销... kernel bypass  绕过很多开销 零拷贝...6.有没有深入研究过dpdk? 深度分析?不太了解,vpp用的多,注册函数指针,成员到主结构体,初始化...7.介绍一下项目2 ??8.讲一下外碎片场景?9.项目里怎么合并内存的?10.照你这么说,一直遍历,O(N),效率是不是有点低?  怎么优化?合并机制类似于伙伴系统,有效减少外部碎片,确保大块内存请求的连续性。联系到工程上....   11.对于解耦的意义?  12.加什么锁?   自旋锁会不会?13.工作线程 vs 主线程?   锁竞争?  桶锁粒度?   12.mmap  vs brk ?13.进程地址空间? 独立性? 页表? 写时拷贝?  (面试官:嗯嗯,对,这个这个这个不错,这个能回答到这个点还是比较少???)14.mm_sturct讲一下?  进程独立拷贝?  区间划分?  管理?  空间布局,自上而下?15. mmap会映射到哪个区域?  文件?物理内存?堆区?16.你对Linux系统的内存管理这块了解的咋样?17.内存分配算法?  伙伴系统?  内存交换?18.unordered_map vs map?  底层?  优缺点?19.vector底层?  异地扩容?  底层指针调整?  元素深拷贝?20.智能指针?  unique vs shared(具体的场景有什么,如何具体选择) ? 底层?  作用域?21. RAII?   除了智能指针还有哪里用到RAII ??22.左值右值引用?   传递unique_ptr?   std::move??  底层? static_cast?23.cpp编译链接流程??24.类模板?  生成模板类?   在编译的哪个阶段??<br>25.讲一下生成的.o文件的格式?  ELF?  忘了...26.和.so .a的联系?  联系实习动静态库?<br>27.动态库的加载?  磁盘到内存?  如何链接过去的?  入口?28.符号表那一套...  大哥你别问了....<br>29.聊一聊   <<程序员的自我修养...>>30.Python会吗?  脚本?31.手撕 链表题  10min 调试过你咋不用智能指针??   写算法题习惯了....32.反问:1.面试表现咋样,哪里可以提升? 平时咋学习?智能指针和新特性,底层编译链接,再复习复习.深度比较重要,找一个方向深入一下吧...2.字节的项目管理流程,从开始到结束,流程?车轱辘话....这个流程的话,它这个这个其实没有这种统一的标准,因为它像自觉它是一个比较大的一个公司嘛,对吧?然后各种各样的这种业务,各种各样的这种项目,他可能。每个项目它都是不太一样的对吧?他可能有的可能希望你。给自己做一些很创新的事情,让你自己一个人去深入的研究某1块儿,然后去独立的去。完成整个一个项目。但是有的项目它可能就是希望你去在他规划的这个大项目里边去让你做某1块事情,然后更加讲究这种分工协作。<br><br>
点赞 评论 收藏
分享
04-18 17:10
已编辑
门头沟学院 Java
一面033157mins自我介绍问项目有没有真实用户的使用1 讲一下JWT(项目提到)2 JWT和session的区别3 JWT和cookie的区别4 讲一下OAuth2.05 授权码模式拿到的access token泄露了咋办,如何降低泄露风险6 你说设置较短的过期时间,那过期了咋办,客户端还没用呢7 讲一下websocket8 如果不用websocket还有什么方式吗 (服务端咋通知客户端,没答出来)9 你刚才提到全双工,全双工指得啥下面开始八股10 MySQL的存储引擎11 innodb有非聚簇索引吗,说说聚簇索引和非聚簇索引的区别12 讲一讲事务的特性,具体说一下各个特性(一致性没说出来,被追问了)13 说一下隔离级别,分别可能有什么问题呢14 几个问题(脏读、幻读、不可重复读)具体指什么(一开始忘记了脏读,被提醒了)15 索引什么情况下失效 (函数、where、模糊匹配、表达式计算、不满足最左匹配原则忘记了)16 redis如何实现分布式锁17 加了过期时间,业务代码还没执行完,锁就过期了怎么办18 缓存三大问题(雪崩、击穿、穿透),如何避免19 redis内存的淘汰策略手撕lc143 重排链表当晚约4月10号二面二面04101h15mins自我介绍问项目中间一小段忘记了慢查询怎么办?(慢查询日志、explain分析字段)假如使用了索引,但是还是很慢怎么办?(索引失效的情况)假如使用了索引,且索引没有失效,怎么办?(这块答的比较差,我说的就是判断数据量是否比较大,如果是数据量实在较大,可以进行分表)spring中使用了哪些代理模式 (我只回答了工厂模式、单例模式、代理模式)说一下你对AOP的理解(吟唱)你了解线程池吗,讲一下创建参数和运行的流程(吟唱)有没有用过消息队列,如何保证消费的时候不重复也不遗漏(笔者没用过消息队列,八股也基本没看,只有一些简单的印象)那根据你自己的理解,为什么消息队列在项目中有使用,它的使用场景是什么,你觉得怎么保证消息不重复不遗漏,所有的消息都能正确的被消费到?对AI工具有没有了解,用来干嘛(ds、kimi、cursor,看论文,读代码)解决问题的效率高吗,能解决多少问题场景:设计一个抢课系统,你觉得它的痛点在哪里,你又会如何解决这个痛点,一堆人使用的时候系统不会宕机,热门课程不会被超出容量的人抢掉 (这块答的比较差)追问:这个系统越做越大,对于抢课信息的表的设计和存储,有什么好的方式,避免出现慢查询的问题继续追问:如果有人用接口去刷来抢课,这种场景怎么解决(统计某个ip的QPS,过高就ban掉)再次追问:怎么统计这个QPS?(通过调用api的用户唯一标识符存储,带上过期时间,存在本地缓存中)本地缓存可以在一个集群中多个机器下共享吗?打在别的机器上怎么办?可不可以让一个人的请求只打到同一台机器上?(面试官提醒一致性hash)手撕:寻路,只能往右和往下走,现在在左上角,能否走到右下角,能走到的话最短距离是多少(我先用的dfs,做完后面试官说dp行不行呢,我说可以,然后让我也用dp做)反问:业务 + 面试结果 + 建议体验:是一个年轻的小哥,人很好,不会的问题也会引导,是一次不错的面试体验。第二天约16号三面,后改到17号三面041758mins自我介绍项目相关 10分钟左右在实际过程(你的日常编程中)中如何减少gc的开销给了一条sql语句,分析执行的过程(我从索引的角度分析的)(select a, b, c,d from t where a=x and b=y order by c;)如何避免索引失效呢?如何看实际过程中有没有使用到你说的那些索引呢?(explain)说一下sql的整个执行过程(从连接器->解析器->预处理器->优化器->执行器)说一下整个innodb的索引结构?(说了B+树的结构)实际过程中每页快速定位记录?了解Linux的awk命令吗?(不了解)讲一下线程池的工作原理吧。(讲了线程池的参数+执行任务的过程)手撕 leetcode 3 无重复字符的最长子串为啥代码中选择使用set呢场景题:设计一个社交朋友圈,可以发文,好友可以发动态,设计数据结构和架构日常过程中是如何学习的呢?有系统的学习过某些知识吗?有深入的学习过吗?比如Linux源码之类的问实习时间反问下午约傍晚HR面
DY_19:uu 哪个部门诶
点赞 评论 收藏
分享
评论
8
25
分享

创作者周榜

更多
牛客网
牛客企业服务