牛肉刀削面

2023-10-23 22:47 已编辑北京航空航天大学大数据开发工程师

关注

2024届秋招总结

互联网：

京东物流-数据研发工程师-离线数仓（8.14 16:00）

一面30min：

1.数仓分层

2.数据治理

3.业务使用的内部表和外部表

4.数据倾斜是怎么处理的

5.三道sql（join，group by，rank窗口函数、ddl语句删表和删分区）

快手-主站-数据开发工程师

一面（通用面）-40min（8.17 11:00）

1.介绍美团项目

2.数仓分层

3.join的mr过程

4.SQL：pv和uv的计算

5.python题：装饰器模式

6.Java题：浮点数开平方、二叉树的层序遍历

二面（通用面）-45min（8.22 14:00）

1.介绍一个最满意的项目

1.1用没用过别的解析工具，知不知道spark用什么解析的，calcite对比

1.2分层建模理论

2.数仓分层理论

3.DWD层，不同主题域是怎么划分的

4.如果建立一个业务数仓，你会考虑哪些问题，开放式

5.Java：有哪些类型的内存结构，堆和栈的区别

6.算法题：找前k大的数，堆排和快排适用情况

7.如何遍历一棵树，前中后序遍历的区别，访问者模式

三面（主管面）-45min（8.29 16:00）

1.数据治理都要做什么？

2.拉链表是什么以及应用场景

3.维度建模理论

4.SQL解析的流程

5.hadoop和spark的区别

6.数据倾斜的场景和解决方案

7.数据湖和流批一体

百度-小度-数据开发工程师（提前批）

一面（KPI，没开摄像头）-45min（8.21 14:00）

1.手撕算法，区间

2.介绍项目，groupingsets

2.1谁在用

2.2目的

2.3效果，和谁比，指标是什么

小红书-数据开发工程师-社区和商业化数仓

一面-1h（9.2 10：00）

1.数仓分层，被challenge在ODS层做公共逻辑下沉，万一数据***掉了怎么办？放在DWD行不行？

2.全链路归因建设的流程？服务端和客户端交互？

3.spark查询的优化?数据倾斜

4.leetcode：用队列来实现栈

5.SQL：查询累计登录天数、连续登陆天数

二面-40min（9.2 11：10）

1.业务背景是什么，被challenge为什么要用hive离线计算进行预计算，不直接用OLAP

2.如何去推动大家去使用这个平台，现在进展是怎么样的

3.为什么count(DISTINCT)转换为bitmapunion就能实现指标的逐层上卷

4.你怎么看待数据赋能业务

字节跳动-数据开发工程师-商业化数仓

一面-45min（9.12 11：00）

1.数据倾斜

2.spark为什么比mr快

3.OSI七层模型

4.TCP和UDP协议的区别

5.数据库索引的数据结构，为什么使用B+树

6.bitmap count distinct

7.基于hash的shuffle和基于排序的shuffle的区别*

腾讯-数据开发工程师-游戏广告

一面-1h（9.19 19：00）

1.项目中遇到的最困难的点

2.排序算法都有哪些分类标准

3.哪些算法是稳定排序

4.堆排序的时间复杂度是怎么样的

5.归并排序用到了什么数据结构、堆排序用到了什么数据结构？

6.聚簇索引和非聚簇索引的区别

7.索引使用了什么数据结构、为什么索引要使用相应的数据结构

8.索引的优劣势

9.解释一下spark中的RDD，哪些操作会导致计算的执行

10.如何解决数据倾斜，广播算法如何解决数据倾斜

11.除了kimball，还有哪些数据仓库的建模理论

12.tcp协议和udp协议相比为什么是安全的

13.如果有一个非常大的数据包，如何保障它被安全发送

14.io多路复用

15.进程间和线程间的通讯方式

16.如何处理最近30天订单量类似的表设计问题

17.Spark ui中有哪些东西，定位数据倾斜，如何优化

京东-数据开发工程师-零售数据中台

一面-30min（9.22 15：00）

1.http和https的区别

2.数仓为什么要分层

3.接口和抽象类的区别

二面-45min（9.26 17：00）

1.数开八股

2.研究方向

滴滴-数据开发工程师-DT

一面-40min（9.23 10：00-11：00）

数开常见八股，忘了

二面-50min（9.23 11：10）

1.hadoop小文件的影响

2.hadoop nn第一次和第二次启动的区别（fsimage和edits）

3.hadoop shuffle过程的三个阶段

4.hadoop数据倾斜及解决

5.spark的宽窄依赖

6.B树和B+树的区别

7.Spark的持久化&Checkpoint

8.数仓建模理论

9.数仓分层理论

10.数据库三大范式

华为-大数据开发工程师-ICT公共开发部

一面-40min（10.11 15：20-16：00）

1.响应码200，400，500含义

2.常见数据结构

3.常见排序算法

4.mysql常见引擎，区别

5.mysql索引

6.手撕：判断一棵树是不是查找树，递归

二面-50min（10.11 16：10-17：00）

1.深度挖简历，每一段实习都干了什么

2.手撕：给定两个二进制字符串，实现二进制加法

三面-50min（10.11 17：10-18：00）

1.最困难的一件事

2.职业规划

3.对华为有哪些了解

4.研究方向

5.兴趣爱好

阿里云智能集团-全面风险管理-安全数据-数据开发工程师

分享一道SQL题(不知道合不合适)

用户规格表（user_spec）：

用户分钟业务表（user_value）：

两张表，user_spec为用户购买的最大规格表，user_value为用户实际业务使用表（每分钟一条记录，存储的为时间戳）。

一、获取每个用户的业务峰值和对应时间点

二、获取用户超规格的时间点（如果某个时间点业务使用量大于规格即为超规格）

三、连续五分钟超规格认为一次告警，获取所有用户的所有告警（输出user_id，告警开始时间戳、结束时间戳）

全部评论

推荐最新楼层

毒书破万卷

门头沟学院数据仓库

佬，最后oc了哪些

点赞回复分享

发布于 2023-10-20 00:35 北京

03-05 20:07

腾讯_大数据高性能开发(准入职员工)

腾讯内推腾讯面经

分享面经（wxg 某团队----客户端开发）一面 （1个小时05分钟）30分钟的实习cpp的一些问题，比如如何利用windowsapi设计窗口，z型扫描，如何定位等问题（30分钟）1个小时后约复试二面（1个小时）20分钟实习之后看了看我的github，给面试官跑了一下之前自己开源的代码和博客。30分钟。10分钟 反转链表（好多次都写反转链表了哈哈）1个小时后约第二次复试三面30分钟实习（1小时50分钟）场景题 弹窗的设计以及大数据的处理。（跟之前的很像，我发现这些企业都爱考整体的架构设计，）要包括数据库和中间件的设计以及处理。（因为我实习和开源的东西用到过）1个小时20分钟智力题我是真没准备，...

点赞评论收藏

03-11 22:32

已编辑

华中师范大学大数据开发工程师

奇点云_数开实习_一面

- 不问八股，不问项目，纯场景题考核，**以下问题均在电商下单的业务背景下**- 知道ER模型和维度模型吗  - 不要介绍概念，接下来以电商场景中的下单过程为背景，分别用两种模型诠释一下这个业务过程- ER模型中有这个下单过程有哪些实体哪些关系  - 商品和消费者的关系是多对多的吗- 维度模型中会有哪些维度表和哪些事实表- 线下的pos系统的数据和我们建表数据格式不一致，如何处理  - 数据清洗和数据格式转换- 业务场景：需要找到国庆期间的无效订单数量  - 无效订单：已下单未发货，已下单发货超过3天  - 订单表：订单id 时间  - 发货表：订单id 发货id 时间- 如果要连接这两个表，用什么join，为什么  - left，因为有订单信息不一定有发货信息，要保证订单信息的完整- 一个需求实现的全流程是什么样的  - 需求->分析其逻辑，划分出集合->对数据进行建模->清洗数据->写SQL->优化SQL- 这个全流程中，你认为ai可以协助数据开发工程师做哪一些工作  - 全部都可以协助，但是需要人工比对和把关- 那么如果AI可以做到整个全流程，数据开发工程师的价值又在哪里  - 目前已经有ai可以实现业务需求的全流程

查看22道真题和解析

点赞评论收藏

02-28 18:40

门头沟学院 Java

小米二面（Java后端开发）

自我介绍实习项目拷打简单说几个Linux命令http与https的区别二叉树有哪些遍历方式静态代理与动态代理的区别ArrayList动态扩容过程HashMap如何解决hash冲突Java如何实现多线程，锁有哪些，原理volatile关键字手撕单例模式算法：两整数之和 ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏。同时不要吝啬您的花花

绿蚁新酿：Mark 静态和动态代理

点赞评论收藏

02-24 13:31

已编辑

电子科技大学成都学院 Java

一面回忆版

1.自我介绍2.项目拷打3.项目重点模块介绍4.redis的数据一致性怎么进行保证的，有没有用什么框架5.数据更改的时候出现短时间脏数据怎么解决，有什么策略6.redis的过期策略有哪些7.redis常用的数据类型有哪些，使用场景8.ThreadLocal的实现原理9.JVM垃圾回收器介绍一下10.Mysql索引的原理和作用11.Mysql索引基于什么实现12.事务的ACID特性

查看12道真题和解析

点赞评论收藏

03-20 10:08

已编辑

武汉理工大学测试开发

Pandas简介

Pandas 是一个强大的 Python 库，专门用于数据操作和分析。它提供了高效的数据结构（如 DataFrame 和 Series），使得处理结构化数据（如 CSV 文件、Excel 表格、SQL 数据库等）变得非常简单。Pandas 是数据科学、机器学习和数据分析领域的核心工具之一。以下是关于 Pandas 的详细介绍和使用指南：1. Pandas 的核心数据结构Pandas 提供了两种主要的数据结构：Series：一维数组，类似于带标签的列表。DataFrame：二维表格，类似于 Excel 表格或 SQL 表。示例：创建 Series 和 DataFrame import panda...

AI自动测试化入门到精通

点赞评论收藏

111

全站热榜

创作者周榜

正在热议

# 投递几十家公司，到现在0offer，大家都一样吗 #

# 22届毕业，是读研还是拿外包offer先苟着 #

# 互联网回暖，腾讯要招5000+人！ #