周旻萱 level
获赞
22
粉丝
12
关注
10
看过 TA
199
南开大学
2025
算法工程师
IP属地:北京
暂未填写个人简介
私信
关注
10-21 20:15
已编辑
南开大学 算法工程师
😦百度 安全部门下的搜索  提前批一面主要根据项目问,感觉比前两次稍微easy一点lora原理,bert结构,截断长度token个数如何提升,rag大规模数据怎么处理,自然语言处理方面的了解程度,nlp大数据挖掘方面怎么理解,现在的大模型如何应用到搜索检索层面?复盘:尽量多说些技术细节,尽量不要太大空和表面一看就没怎么用过,最好说完能表明你懂很多能应用的技术(但说完做的感觉不是很有兴趣,投的太宽了,细的招的人少的容易挂,招的多的业务好像不是很符合预期...)😳讯飞 NLP  飞星(教育和文献理解方向)  一面 全程拷打,论文模型创新细节,细到每一步运算操作,矩阵计算,我直接把向量维度说上了,实验怎么做的,评估指标,lora训练,怎么做的,参数,rag的流程细节。编程:单词拆分 leecode139  动态规划🤯字节 国际化广告   多模态安全检测 一面transformer八股,讲讲模型训练方面的经历,编程:奇偶链表#软件开发笔面经#😇虾皮Shoppe  知识图谱/NLP 一面boosting和bagging在特征方面的区别,(没做过,...nlp方面transformer八股7b多的模型需要多少内存占用,估算一下编程:单词拆分  leecode139(两次一样,心塞,发现是完全背包)虾皮  第二次重投重新面(大模型算法岗):原理方面问的比较细:bert详解,有什么缺点,bert有哪些改进模型;生成模型了解哪些,GLM结构介绍一下Lora的损失函数,优势和缺点自己的应用模型的经历,改进经历等编程:多个字符串 反转😇美团-一二面   数据挖掘到店真的很看运气,这次感觉把项目讲的比较详细,然后没问什么其他的,然后2道编程题,原来好的一面是1,2天后就二面....🤠超参数-  算法游戏ai,2道编程题,问了下岗位意愿程度🤩360  算法  (面到一半说是广告业务, 为啥jd啥也不说)bert的结构,比过去的文本编码器好在哪些地方?(这个确实需要好好总结一下)我只说了过去word2vec窗口太小什么,还有很多其实:具体见图AUROC指标介绍一下:传统机器学习模型了解哪些,树模型,xgboost了解吗?另外投了些算法实习面试当练手,面完回去补充了一些问答的不够的地方。简单复盘总结:项目写的技术创新和深度还可以挖一挖,流程中:贝壳跟各大不同部门HR语音聊3-4h以上得到的一些offer部门投递选择的有用建议:HR都在利用信息差忽悠应届生进来,一般是语音打电话忽悠,这样方便不留下证据,可能的坑包括不限于:很坑的部门类似活多待遇低,来了跟当时说的做的东西不一样,来背部门的低绩效指标一年后out出去,其他还没有想到的...建议:1.不能听HR的一面之词,多调研,多找人打听真实情况,最好是内部部门工作的人2.坑很多,需要自己多掌握多方信息,别进去没多久就后悔,一半内部转岗会有时间要求,一般一年后才能转,所以因为信息差和缺乏有效调研进坑痛苦一年也划不来3.选择确实大于努力,有些人进去后内部转岗也需要具备良好的识别能力和眼光,有些人内部转岗才发现是从一个坑转到了另一个坑,现在不好的部门或许因为时代机遇顿时变香饽饽,现在不行不代表未来2-3年不行,因素很多,听到hr一些调侃“部门行不行看领导行不行,领导行不行看大领导行不行”,我问啥样的领导行呢?hr:能带领部门业务取得利润且赚钱的领导。重点因素:领导,大领导...#软件开发笔面经#
查看4道真题和解析 软件开发笔面经
0 点赞 评论 收藏
分享
09-24 15:13
已编辑
南开大学 算法工程师
预测和分类任务的损失函数为什么不一样?数据分布的差异也是导致预测和分类任务损失函数不一样的原因之一。回归任务面对的是连续变量,其数据分布往往呈现出一定的规律性和连续性;而分类任务处理的是离散的类别标签,数据分布通常是散列的,并且每个类别内部可能并没有明显的先后顺序或大小关系。因此,回归任务更关注于数值预测的精度,而分类任务则更侧重于类别判定的准确性和置信度。这种根本的区别导致了损失函数设计的侧重点不同。NLP领域预训练模型的发展,transformer比word2vec好在哪里?Word2Vec:Word2Vec是一种浅层的神经网络模型,主要包括连续词袋(CBOW)和Skip-gram两种方法。其核心思想是通过给定的上下文来预测当前单词或者通过当前单词预测上下文中的单词。1.这种方法生成的词向量能够捕捉词汇之间的线性关系,但对于更复杂的语义关系则表达能力有限。2.虽然Word2Vec的训练相对较快,但其生成的词向量是静态的,无法根据不同的语境动态调整。Transformer:Transformer则采用了深层的自注意力(Self-Attention)机制,能够同时处理输入序列中所有单词之间的关系。1.这种机制不仅提升了模型对长距离依赖的处理能力,还能捕捉更加丰富的语义信息。2.Transformer模型通过预训练和微调两个阶段,能够有效利用大规模语料库进行训练,并在具体任务上进行精细调整。这使得Transformer在各类NLP任务中都能够获得良好的性能表Layer Normalization的作用是什么?能否用Batch Normalizatioin? Layer Normalization跟数据预处理时初始归一化有什么区别?具体怎么做的?Layer Normalization有助于稳定深层网络的训练,通过对输入的每一层进行标准化处理(使输出均值为0,方差为1),可以加速训练过程并提高模型的稳定性。它通常在自注意力和前馈网络的输出上应用。批归一化是在一个小批量的维度上进行归一化,这意味着它依赖于批次中所有样本的统计信息。因此,BatchNorm的行为会随着批次大小和内容的变化而变化,这在训练和推理时可能导致不一致的表现。在处理变长序列和自注意力结构时,BatchNorm可能不如 LayerNorm 高效,因为变长输入使得批次间的统计信息更加不稳定。BatchNorm在训练时计算当前批次的均值和方差,在推理时使用整个训练集的移动平均统计信息。这种依赖于批次统计信息的特性使得 BatchNorm在小批量或在线学习场景中表现不佳。编程题:平面坐标里有一堆的点,计算一条直线最多能通过多少个点;思路:算两个点确定的直线的斜率和截距,然后判断每条直线是否有相同的斜率和截距;#软件开发笔面经#   #算法面经#
查看3道真题和解析 软件开发笔面经
0 点赞 评论 收藏
分享
05-24 10:00
已编辑
南开大学 算法工程师
面试面累了,捂捂,只能说缘分,目前有百川的实习,其他的面不动了高德一面后 流程终止,主要感觉没什么兴趣(但没有笔试直接发的面试...发的测评都还没来得及做),业务聊下来是预测打车用户投诉概率,不知道是不是因为没在截止日期前做人才测评。腾讯广告 一面终止,感觉对技术细节问的比较多, 问了一些很细的特征融合的函数实现,问了特征值和特征向量当时有些忘了答的比较笼统抽象。算法问的比较多的问题:transformer结构,bert结构,大模型微调,项目技术细节。现场编程过:华为:带符号的数字逆转顺序(偏简单)百川智能:全排列回溯算法  现场编程勉强过:高德:好像是个查找和排序混合的题,一堆数,怎么找到某个数,返回下标索引什么现场编程挂:快手:第一道动态规划简单的过了,第二题有障碍物的动态规划挂了腾讯 三面编程挂:当时3月份,还没怎么刷题,一些简单的可能都不太熟悉,但居然给我面到3面然后挂了,题目是给多段多个数字的数组,找出其中共同的元素好像,听上去好像很简单,但当时循环写的都不太熟。挂的一些笔试:美团,好像每题的通过率很低,可能有特殊情况没考虑全小红书, 在外边高铁上笔试写一半太晕了身体不适,只过了1题,好像一共有3题淘宝, 感觉好像没过很多,挂了蚂蚁,好像当时刷题太少,没写出来多少腾讯, 5题写了2.5题左右,但流程反复了2次多,不知道有没有算过,一直反复被捞状态感觉代码还是得加强。笔试太菜了枯还面过一些大模型创业公司,还行,就是感觉业务还不太成熟#面经
查看1道真题和解析
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务