首页 / 网易智企

#

网易智企

#

1345次浏览 17人互动

此刻你想和大家分享什么

热门最新

2023-12-21 11:21

门头沟学院大数据开发工程师

网易大数据研发实习面经

#23届找工作求助阵地#  #实习#  #网易智企# 一轮面试：1.比赛相关（自动化敏感信息提取项目中：数据提取、清洗和转换是怎么做的？数据量大概有多少？最终的训练模型的数据结构是怎么样？有没有涉及到分布式集群来训练模型？）2.课题相关（刚才说这个项目不是用到多卡多去存储，应该是相当于HDFS文件上面对吧？有没有用到它里面的一些计算的一些引擎，那你存储它的用它的组件的目的是什么？Hadoop的集群架构是单机还是分布式的？是自主搭建的吗？）（因为分布式集群我回答的比赛没有用，课题项目用了，但是回答的不好，然后引导面试官转换到正在做的离线数仓项目）3.离线数仓项目（介绍一下Hadoop架构的组件？简单介绍map reduce和Spark它们之间有什么区别，哪个性能方面更好以及适用于哪一些场景？）4.技能（flume的应用场景？如何实现的数据采集？离线数仓整个体系的分层？从原始数据层ODS到汇总数据仓DWD再到应用数据层中间的数据处理是怎么做的？如果各层时使用的是hive sql进行数据处理的，那么应该有类似于ETL任务调度，那这种调度在终端中是怎么实现的？所以都是手动写好脚本定时来执行？有没有用过spark做一些处理?全量和增量是怎么做的？客户端和服务端的日志采集最终是写到Kafka，那么卡夫卡再到Hadoop的中间过程是怎么实现的？介绍一下Kafka的集群架构？BI工具在业务上又是干嘛用的？mqsql数据库的索引机制？索引是基于什么实现的？什么样的数据会放到mysql里面？MySQL的事务和基本原则？MySQL的默认事务隔离级别？不同的隔离级别会出现哪一些问题，简单描述一下？为什么会造成数据的脏读和幻读？Java的GVM机制？Spring boot机制？shell中的vim如何退出，退出会保存吗？怎么查一个CPU占用较高的线程？）5.其它（简历上的项目，有没有什么遇到特别难的难点，简单分享一个）6.反问（当时脑子卡壳了，只问了实习生干的什么，应该问下面试表现和需要改进的地方）

投递网易等公司10个岗位

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客企业服务