秋招面试进展复盘+记录

😦百度 安全部门下的搜索  提前批一面
主要根据项目问,感觉比前两次稍微easy一点
lora原理,bert结构,截断长度token个数如何提升,rag大规模数据怎么处理,自然语言处理方面的了解程度,nlp大数据挖掘方面怎么理解,现在的大模型如何应用到搜索检索层面?

复盘:尽量多说些技术细节,尽量不要太大空和表面一看就没怎么用过,最好说完能表明你懂很多能应用的技术
(但说完做的感觉不是很有兴趣,投的太宽了,细的招的人少的容易挂,招的多的业务好像不是很符合预期...)

😳讯飞 NLP  飞星(教育和文献理解方向)  一面 
全程拷打,论文模型创新细节,细到每一步运算操作,矩阵计算,我直接把向量维度说上了,实验怎么做的,评估指标,
lora训练,怎么做的,参数,rag的流程细节。

编程:单词拆分 leecode139  动态规划

🤯字节 国际化广告   多模态安全检测 一面
transformer八股,讲讲模型训练方面的经历,

编程:奇偶链表

#软件开发笔面经#

😇虾皮Shoppe  知识图谱/NLP 一面
boosting和bagging在特征方面的区别,(没做过,...
nlp方面transformer八股
7b多的模型需要多少内存占用,估算一下

编程:单词拆分  leecode139(两次一样,心塞,发现是完全背包)

虾皮  第二次重投重新面(大模型算法岗):
原理方面问的比较细:
bert详解,有什么缺点,bert有哪些改进模型;
生成模型了解哪些,GLM结构介绍一下
Lora的损失函数,优势和缺点
自己的应用模型的经历,改进经历等

编程:多个字符串 反转

😇美团-一二面   数据挖掘到店
真的很看运气,这次感觉把项目讲的比较详细,然后没问什么其他的,然后2道编程题,原来好的一面是1,2天后就二面....

🤠超参数-  算法
游戏ai,2道编程题,问了下岗位意愿程度

🤩360  算法  (面到一半说是广告业务, 为啥jd啥也不说)

bert的结构,比过去的文本编码器好在哪些地方?(这个确实需要好好总结一下)

我只说了过去word2vec窗口太小什么,还有很多其实:具体见图

AUROC指标介绍一下:

传统机器学习模型了解哪些,树模型,xgboost了解吗?

另外投了些算法实习面试当练手,面完回去补充了一些问答的不够的地方。

简单复盘总结:项目写的技术创新和深度还可以挖一挖,

流程中:
贝壳

跟各大不同部门HR语音聊3-4h以上得到的一些offer部门投递选择的有用建议:

HR都在利用信息差忽悠应届生进来,一般是语音打电话忽悠,这样方便不留下证据,可能的坑包括不限于:很坑的部门类似活多待遇低,来了跟当时说的做的东西不一样,来背部门的低绩效指标一年后out出去,其他还没有想到的...

建议:
1.不能听HR的一面之词,多调研,多找人打听真实情况,最好是内部部门工作的人
2.坑很多,需要自己多掌握多方信息,别进去没多久就后悔,一半内部转岗会有时间要求,一般一年后才能转,所以因为信息差和缺乏有效调研进坑痛苦一年也划不来
3.选择确实大于努力,有些人进去后内部转岗也需要具备良好的识别能力和眼光,有些人内部转岗才发现是从一个坑转到了另一个坑,现在不好的部门或许因为时代机遇顿时变香饽饽,现在不行不代表未来2-3年不行,因素很多,听到hr一些调侃“部门行不行看领导行不行,领导行不行看大领导行不行”,我问啥样的领导行呢?hr:能带领部门业务取得利润且赚钱的领导。重点因素:领导,大领导...

#软件开发笔面经#
全部评论
@周旻萱请问一下虾皮的知识图谱为什么要问transformer和大模型相关的内容呢?是因为业务偏大模型吗?
点赞 回复 分享
发布于 2024-10-09 19:56 北京
uu shopee有后续嘛!nku校友蹲一下!
点赞 回复 分享
发布于 2024-09-21 18:32 北京
被捞了 找熟人问了是坑 但已经拿到offer咋办呢 应该不能重开了吧 其实从面试就能看出一个组怎么样 但是被哪个组捞真没法自己选呐
点赞 回复 分享
发布于 2024-09-09 15:52 北京
为什么你会有这么多hr沟通的经验
点赞 回复 分享
发布于 2024-09-08 23:15 山西

相关推荐

1. 核心影响因素- 任务类型:- 简单任务(如文本分类):可能需数百到数千条标注数据。- 复杂任务(如对话生成、阅读理解):通常需数万条甚至更多数据,尤其需多样性和高质量样本。- 模型规模:- 大参数量模型(如GPT-3、PaLM)可能需更多数据防止过拟合,但通过策略(如参数冻结)可降低需求。- 较小模型(如BERT-base)可能在较少数据下表现良好。核心是数据质量:- 高质量、标注精准、多样化的数据可显著减少需求量。- 低质量数据可能导致模型性能瓶颈,需额外清洗或增补。领域差异:- 若预训练数据与目标领域差异大(如通用→医疗),需更多领域数据调整模型分布。- 训练策略:- 正则化技术(早停、Dropout、数据增强)可缓解小数据过拟合。- 迁移学习技巧(如Adapter、LoRA)可减少可训练参数量,降低数据需求。经验可参考范围- 常规任务(分类/标注):- 小模型(如BERT):1k-10k样本。- 大模型(如GPT-3.5):可能需10k-50k样本(结合领域适配策略)。- 生成任务(对话/摘要):- 通常需5k-100k+样本,依赖生成质量要求。- 领域适配:- 若领域差异大,需额外增加20%-50%数据量。产品经理的权衡维度- 业务目标:- 若需快速验证MVP,可接受小数据+低精度(如数百样本),后续迭代优化。- 若追求高精度(如医疗、金融场景),需预留足够标注预算。- 资源限制:- 标注成本:若数据获取昂贵,需优先优化数据质量或采用主动学习。- 算力与时间:大数据量需更高训练成本,需权衡ROI。- 替代方案:- Prompt Engineering:用少量样本设计提示词,可能无需微调。- Few-shot Learning:结合模型原生能力减少数据依赖。 #牛客激励计划#  #聊聊我眼中的AI#   #数据人的面试交流地#  #AI了,我在打一种很新的工#  #面试被问期望薪资时该如何回答#  #面试题刺客退退退#  #大家都开始春招面试了吗#  #24届软开秋招面试经验大赏# #牛客AI配图神器#
点赞 评论 收藏
分享
评论
8
31
分享

创作者周榜

更多
牛客网
牛客企业服务