双非 大模型测开&数据服务 OC

先前突然收到某家大厂意向。

中秋节前面完一直没有下文。一直以为自己排序要挂,没想到今天 OC。来写一个面经攒攒人品。

个人情况:
简单交代一下 bg,双非一本。今年境外申博无望,来找工作,只有国内某个 C9 老师的口头 offer,但是拒了,因为感觉老师非常 push,而且看不上我本科背景,一直对我 PUA,至于境外,由于没啥希望拿全额奖学金,加之父母双双失业,家里每个月 8000 左右房贷,所以感觉不可能出境读博了。

平时编程 Python 居多,没有什么工程化项目经验,八月底开始学习 Java,两周时间部署上线了一个测评机项目。其中,前端 Vue3,后端包含两个部分,其一是使用SpringBoot 搭建用来解决常规 CRUD业务的,另一个是使用 Python fast API 搭建的,通过 RAG+Llama 来做一些问答的,模型针对编程任务做过微调),其实简历也就这个项目稍微能拿得出手。我在九月初正式开始投递简历,加入秋招,但是只有一家小公司实习,实习期间主要是做测开、数开(小公司是这样的,全干工程师),工作内容很杂,导致秋招期间会被 diss实习方向不太对口,屡屡受挫。

- 校内奖项方面:两个国奖 + xcpc 水铜 + 大学数学竞赛工科国二 + 谷歌数据挖掘竞赛top30,其实这些奖项也就学校里面威风一下,感觉除了 xcpc之外,对找工作基本没有什么帮助,而且有些面试官甚至不知道 xcpc 是什么东西,亦或是知道,也跟我说 “这些经历很不错,但是未必能给公司带来商业价值”
- 科研成果:六篇 SCI 一区论文(CCF-B),其中四篇主要作者(学生一作或共一,一篇学生三作),楼主投递的大部分都是 IEEE trans 听说,审稿巨慢,所以另有五篇在投 (其中在投的 AAAI 最近刚出一轮的结果,一篇挂掉,一篇过二审,许愿能圆我在毕业之前实现顶会梦想)

总得来说,大部分公司基本简历挂,点名深信服、美团,笔试 AK 竟然没给面试,不过我猜是因为自己投递的太晚,没有 HC。虽然都是简历直接挂,但是美团校招这边直播答疑真的挺不错,直播答疑的是西电出来入职美团的小哥,直播答疑解决了我非常多找工作方面的疑惑,而且人看着挺帅,也是在这个时候,鄙人才对公司的招聘流程有那么一点了解,不得不说,自己之前真是过于学生思维了,天真的以为自己找工作不愁。

技术面总共三轮:

Round 1
- 实习项目拷打 + 结合项目提问测试开发的场景题
- 介绍token概念 + embedding 原理 + word2vec 原理 
- Transfomer QKV原理、 BatchNorm与 LayerNorm 区别
- LLM 生成内容的效果评估 +  LLM文本摘要能理/推理能力/生成能力
- LLM 自动化测评怎么写断言 + Reference-based 与 Ground truth-based 区别、Backbone 能力评估维度
- 结合大模型应用问了 HTTP + RPC 原理
- CI/CD 概念 + 模型训练完成之后如何自动化测试
- Agent概念 + RAG原理 + SFT

🤔思考与复盘
话说我们做模型测试的也要知道这个吗?感觉这个更像研发同学会做的事情?

Round2-Round3
测开主要使用 Python 来写自动化测试脚本,因为·是面试提问大多都是 Python 相关的问题,又或许是因为我简历有一行提到自己熟悉 SSM 框架,面试官在问我 Python 八股的时候会结合 Java SSM 八股来问:

- 函数闭包 + Python装饰器 + Py装饰器与Java AOP 异同
- 日志级别 + 容灾 + redo/undo + 哪些级别的日志可以分块缓存写入
- Python list/dict/set/tuple 内置数据结构的底层实现  + 对比cpp vector/map/set/pair有何不同 
- Python 反爬虫 + 如何绕开反爬虫的技术 + 如何使用爬虫抓取的数据来喂 AI 模型
- MySql 基本用法 + Redis缓存击穿 + MySQL/Redis/MongoDB 三者优缺点/适用场景对比
- 进程和线程的区别 + LRU/LFU缓存机制
- 前后端联调 (通过OpenAPI+Swagger生成代码) + 项目使用哪些设计模式 + 如何解耦 ()
- IQ 问题,如何估计深圳南山区有多少共享单车 (高中生物标志重捕法)
- 正相关性是否说明两个东西具有因果性 (否)
- 强化学习主要解决什么问题 + 如何借助用户反馈来做 RL + 单臂老虎机算法(这个不懂)
- stack与queue有何应用  (括号匹配、递归模拟、双栈模拟表达式求职、单调队列维护滑动窗口最小值,单调栈维护最近更大元素,两次遍历维护最远更大元素,配合稀疏表维护最远更大元素,检查序列信号数据有没有峰或谷)

🤔思考与复盘:
- 面试官问我有没有 Stack/Queue 算法题之外的应用,我介绍了 Vue.js/JavaScript 事件驱动模型
- 其实我并不懂 Redis 缓存击穿,给问到的时候有点慌,但我在哔站看到up xhyovo 说是不懂也没关系,重点在于对于业务的理解而不是对技术栈的堆砌,所以我坦诚的交待了自己没有深入研究这个东西,对于 Redis 仅仅停留在知道语法,借助 GPT 能做项目的程度,因为平时的项目用户量不大,如果能用 MySQL 解决,其实没必要硬整 Redis,紧接着,马上转移话题,换到自己熟悉的领域

Round4
HRBP 面试,本以为是比较轻松的一轮面试,没想到问题非常刁钻。
- 问我如何看待自己是双非学校,我说我很自豪,我们县城高中全校能上一本的只有两个人结果,hr似乎有点无语
- 问我相较于多段实习的 985/211 同学来说,自己有何优势? (科研产出多,大部分的硕博科研业绩应该都比不过我)
- 问我职业规划 + 质问为什么实习经历为什么不垂直等等(没懂什么是垂直,后面 HR 说是对口的意思)
- 质问为什么之前投递了前端等其它毫不相关的岗位(因为我也学过,平时网接单赚钱,前后端+深度学习算法都做)
- 为什么能接单挣钱不自己单干 (因为收入不稳定呀)
- 问我有没有什么爱好 + 问我有没有对象 + 问我如何看待加班。

🤔总结:
整体感觉压力不小,问题都不难,但是坏在量大,为什么我看大佬分享的面经都是聊天呢,靠。

三轮面试的算法题也不难,手撕基本都是 LeetCode 原题:
- KMP+ 判断链表是否有环(本题只要口述思路)
- 无重复字符的最长子串 + 接雨水 + 编辑距离(口述思路)
- LRU 

🤔思考与复盘:
我在网上看大家分享,手撕都是一道题,但我好像写得太快,面试官质疑我背题,所以在写三面手撕 LRU 环节的时候,我故意写了五分钟左右。样例都是面试官提供的,不像力扣那么全面。

各轮面试的反问环节:
能否让我提前到岗实习、会不会差额录用、新手保护期怎么培训

总结:
秋招第一个offer虽说是一个测开offer,但是也算一个比较好的开始,至少自己投入的时间得到了些许肯定。刚开始不敢投大厂,投递了一堆手机厂结果给我挂麻了,短暂的喘息之后,鼠鼠仍是不敢躺平,早就听说了大厂也有毁意向的先例,所以其它在面试也要继续推进才行,希望后续商汤、虾皮、华为都可以顺利 (11-02更新: 商汤、虾皮已挂,华为技术面通过,主管面延期,尚未开始),总之,希望大家能在十月的尾巴拿到自己心仪的 offer。


关于学历的题外话:
鼠鼠我是小镇做题家,小地方长大,大学之前从来没听过 985/211,因为县里的高中没有人能考上。大二才第一次听说 985/211这个概念,找工作之后听说了双非歧视这种说法,明明是高中的时候都说那是一本,没想到现在变成了“双非”, 心里怪不舒服的,不过,有些面试官非常热心的告诉我——大部分时候卡学历是因为简历太多看不过来,如果能有比较突出的项目,或是科研成果,仍然是有机会脱颖而出的。

#双非有机会进大厂吗##你都收到了哪些公司的感谢信?##晒一晒我的offer##双非算法#
全部评论
点赞 回复 分享
发布于 10-18 14:09 湖北
佬面的是哪呀?
点赞 回复 分享
发布于 10-18 14:23 广东
Redis缓存击穿(给问到的时候有点慌,但我在哔站看到up xhyovo 说是不懂也没关系,重点在于对于业务的理解而不是对技术栈的堆砌,我便说自己不了解这个,对于 Redis 仅仅停留在知道语法,借助 GPT 能做项目的程度,因为平时的项目用户量不大,只需要用到 MySQL,没必要硬整 Redis) 本人额外说一下:对是对的,但是被问到也不能直白的说不了解,你肯定要有其他方面撑起来话题往那边去引,这样才弱化这种背的问题
点赞 回复 分享
发布于 10-18 15:04 广东
别顶着测开头衔了,这完全不是测开😭😭😭
点赞 回复 分享
发布于 10-19 00:03 北京

相关推荐

数开面试题使用的hive,tez计算引擎1.如何建模、以及数据开发过程中需要注意的问题(数据探查、数据开发、数据质量监测、数据核对)2.页面数据有问题、如何排查3.抽数、推数数据量异常如何自动停止任务(要有工作日、非工作日的判断,非工作日不生效,UDF函数)4.hive表生命周期管理失效,如何进行生命周期管理(设成自动任务的话可能会使用shell脚本)(3个月前每月保留第一天与最后一天的数据,注意是业务时间第一天与最后一天,非调度时间)5.数据量大的表推数慢影响页面展示怎么解决6.根据2个日期计算工作日天数7.去重方式(开窗函数如何控制窗口的大小)8.列转行(清洗、分隔符统一、注意有些业务数据(比如一条数据楼栋面积字段(可能是总面积)对应多个房屋或多个楼栋)、LATERAL VIEW explode)9.明细表数据量大,每月还要都保留一份,怎处理?怎么优化?达梦分区(范围分区、哈希分区、列表分区、组合(多级)分区、间隔分区(属于范围分区)INTERVAL <间隔表达式>)10.更新数据效率更高的方式update采用的类似nested loop的方式,对更新的每一行,都会对查询的表扫描一次;merge into这里选择的是hash join,则针对每张表都是做了一次 full table scan,对每张表都只是扫描一次。11、筛选的时候in(不适合B大)、exists不适合B大)、join的底层以及效率12.常用的分析函数13.连续3天及以上连续出现的次数(减序号) #实习#  #校招#  #大厂#  #数开#  #数仓#
查看13道真题和解析
点赞 评论 收藏
分享
4 10 评论
分享
牛客网
牛客企业服务