04-11 22:09 佛山大学大数据开发工程师发布于广东

关注

科拉奥数据开发一面

说一下数仓项目的架构（离线和实时都问了）

说一下数仓分层及其作用

DWD层和DWS层的区别

事实表有哪些，为什么要设置周期快照事实表

说一下ADS层完成的比较难的需求及其实现（离线数仓的）

说一下为什么在实时项目中加入Redis作为缓存

说一下为什么使用LookUpJoin

MapReduce的工作原理

Hive怎么调优

Flink水位线机制

一道HiveSQL：假设有一张用户登录表，如何求出连续三天登录的用户

反问：

入职主要干啥

简历中哪点吸引了你

回答的怎么样

个人感觉答的不是很好的：

说一下ADS层完成的比较难的需求（这里我倒是说了一个，但是感觉面试官好像听得不是很懂的样子QWQ）

Hive怎么调优（这个主要说了分组和Join如何调优，其他参数实在不会）

Flink水位线机制，这个答完面试官说水位线主要处理乱序数据，但是我答的方向是可以使用事件时间，提高准确性

一开始宿舍比较吵，然后上天台开流量面试的，后来面完面试官说声音不是很连续，以后长记性了得找个网好点的地方

感觉要寄

全部评论

推荐最新楼层

数开小菜鸡__求offer版

Soul_数据研发部_数据开发(实习员工)

hive调优可以从数据倾斜和小文件答。比如数据倾斜，开启mapjoin参数，开启skew-join参数，开启skew-groupby参数等等比如小文件，小文件可能是动态分区插入导致的，开启动态分区参数，并开启动态合并小分区参数; 开启动态识别小文件参数，并设置小文件平均大小的阈值，以及合并后文件的大小等等

1 回复分享

发布于昨天 11:37 安徽

数开小菜鸡__求offer版

Soul_数据研发部_数据开发(实习员工)

ads复杂指标可以说是什么指标(比如复合指标/派生指标)，然后说自己怎么dwd层带到dwm层带到ads层，中间关联了哪些，聚合了什么维度

点赞回复分享

发布于昨天 11:41 安徽

数开小菜鸡__求offer版

Soul_数据研发部_数据开发(实习员工)

watermark是为了解决事件时间乱序的问题吧

点赞回复分享

发布于昨天 11:38 安徽

防灾科技学院大数据开发工程师

二面了没

点赞回复分享

发布于 04-13 05:30 河北

04-13 17:16

门头沟学院大数据开发工程师

作业帮 | 数据仓库暑期笔试

有序数组 [2, 5, 7, 10, 14, 15, 18, 23, 35, 41, 51] 中查找12关键码比较次数6个圆盘汉诺塔，总的移动次数移动 n个圆盘的最少步数 = 2^n - 1Flink知识点考察（支持状态计算）kafka的高低级API构成排序二叉树中一条查找路径hive知识点考察awk {print $nf} test 的意思是打印文件 test 的每一行的最后一个字段算法两道无重复升序数组二分查找最长有效括号注：算法题不需要自己写输入输出，和leetcode的模式一样，可以用本地IDE

查看10道真题和解析

投递作业帮等公司6个岗位 >

点赞评论收藏

分享

04-12 00:59

已编辑

清华大学数据挖掘

抖音数据开发（数仓）实习生招聘

岗位：大数据开发实习生职位描述1、参与字节抖音小游戏与玩法业务离线和实时数据仓库建设工作；2、面向PB级超大规模数据问题，每天处理千亿增量的用户行为数据；3、为大数据的全生命周期提供服务，覆盖数据产生，传输，建模，统计分析，实验评估，可视化的全流程；4、构建设计良好的数据流、数据仓库、调度系统、查询引擎，数据服务、分析系统、流程规范，数据工具/产品，降低数据的使用门槛，保证系统稳定高效运行，以实现数据的最大价值。职位要求1、2026届及以后毕业，本科及以上学历在读，计算机相关专业，或具备同等计算机知识水平和学习能力的其他专业应届生；2、熟悉数据仓库实施方法论、了解数据仓库体系；3、会使用SQL，掌握Java、Python、R、Scala、C/C++ 中任意一门编程语言；4、 有大数据集、分布式计算工具（Map/Reduce，Hadoop，Hive等）工作经验优先；5、 思路清晰，善于思考，有很强的数据分析能力，能独立分析问题并推动解决问题；6、 每周可以实习4天以上，连续实习3个月以上。目前急招中，跟进很快，最好之前做过数仓实习，base北京知春路有意投简历至某易邮箱tang_3145

投递字节跳动等公司9个岗位

点赞评论收藏

分享

04-12 16:37

哔哩哔哩_数据平台部_后端开发

数据密集型应用系统设计-流处理系统架构与优化

流处理系统架构 流处理架构图 [数据源] → [数据接入层] → [流处理引擎] → [数据输出层] ↑ ↓ [状态存储层] [协调服务层] 数据源（Source） 功能：持续生成或传输数据流，作为系统的输入。 消息队列：Kafka、RabbitMQ、AWS Kinesis（高吞吐、持久化）。 日志系统：Fluentd、Logstash（实时采集应用日志）。 数据库CDC：Debezium（捕获MySQL/Oracle变更日志）。 数据接入层（Ingestion Layer） 功能：将数据从源头可...

点赞评论收藏

分享

04-12 01:35

已编辑

门头沟学院后端

美团数据开发暑期实习

3.26美团一面自我介绍spark相关的八股：宽窄依赖，spark join，spark sql执行过程，spark任务的提交流程，spark算子，driver 在什么时候运行等等hadoop 的文件存储格式java 的arraylist hashmap concurrent hashmap mysql的acid，四种隔离级别还有好多记不清了手撕 寻找数组中第k大的值一面挂4.3一面(被捞)全程无八股，聊实习聊项目手撕sql留存率问题4.3晚约二面4.11二面聊实习聊项目4.11晚offer二面在上午，结束后没有沟通，晚上直接发了offer #实习进度记录#  #牛客创作赏金赛#

查看15道真题和解析实习进度记录牛客创作赏金赛

点赞评论收藏

分享

04-09 01:05

网易_数据开发工程师

大厂中Flink SQL开发流程及模板

Flink SQL开发链路全流程先确定源，一般都是Mysql到kafka/mq，通过读binlog获取，也可以直接读后端提供kafka/mq，其次是流表，流表大多数都在中间件中存放，最后落地结果时可落starrocks/doris中。流程如下：流表创建首先需要先创建流表的库就是流表kafka、olap的ods、dwd、dws、ads方便后续操作，再创建配置流表。实时开发存在3版块内容，1flink sql实现实时sql方式查询，2.实时jar包上传，3.flink cdc来接入来源库数据源CDC接入方法1：Binlog获取，DTS配置，生成ODS流表这里任务名和ODS任务保持一致即可，配置好M...

点赞评论收藏

分享

评论

1

6

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招进度记录 #

43996次浏览 352人参与

# 打工人的工作餐日常 #

31017次浏览 282人参与

# 实习进度记录 #

44238次浏览 351人参与

# 软开人，说说你的烦心事 #

35204次浏览 221人参与

# 你想吐槽公司的哪些规定 #

11402次浏览 40人参与

# 诺瓦星云求职进展汇总 #

188067次浏览 1620人参与

# 打工人的精神状态 #

38826次浏览 777人参与

# 一觉醒来，秋招难度下降一万倍…… #

60901次浏览 529人参与

# 荣耀求职进展汇总 #

826014次浏览 4668人参与

# 机械制造秋招总结 #

47020次浏览 462人参与

# 机械校招之路总结 #

85265次浏览 1829人参与

# 滴！实习打卡 #

601632次浏览 6391人参与

# 如何KTV领导 #

47322次浏览 373人参与

# 查收我的offer竞争力报告 #

155322次浏览 963人参与

# 参加完秋招的机械人，还参加春招吗？ #

38096次浏览 454人参与

# 研究所笔面经互助 #

62546次浏览 418人参与

# 我在牛爱网找对象 #

167962次浏览 1247人参与

# 秋招感动瞬间 #

18861次浏览 184人参与

# 我在牛客求捞 #

37084次浏览 199人参与

# 工作经验重要还是工资重要？ #

70965次浏览 667人参与

牛客网
牛客企业服务