拼多多风控算法挂经

项目拷打:项目细节展开,多次打断然后问细节。(态度还是很好的,是我没有讲清楚,明明是end2end,我说错了),其实从这里开始就比较离谱了,我全程不在频道。我感觉还没说完,被打断:以我的经验,这不可能(确实)。

U-Net多尺度如何实现,共享参数如何实现,OCR的一些技术栈等,

Laplace变化的目的?(可能是因为我有工科背景?)答:时频转换,简化方程,稳定性分析等,控制系统也需要,通过 Laplace 变换,可以将控制系统的动态响应表示为传递函数

会不会C++,Java巴拉巴拉

问了很多机器学习的知识点:

决策树、Random Forest、Booting、Adaboot)GBDT和XGBoost的区别是什么?

  1. 决策树(Decision Tree):决策树是一种基于树状结构的模型,通过对数据集进行递归分割来进行决策。每个节点表示一个特征,每个分支代表一个决策规则。决策树容易过拟合,对数据的小变化敏感。
  2. 随机森林(Random Forest):随机森林是通过集成多个决策树来提高模型的性能。它采用Bagging技术,对训练集进行有放回抽样,然后训练多个决策树,最后将它们的预测结果进行平均。随机森林能够减少过拟合,提高模型的泛化性能。
  3. Bagging:Bagging是一种集成学习技术,通过对训练集进行有放回抽样,训练多个模型,最后通过投票或平均来决定最终结果。它可以用于不同的基本学习器,不仅限于决策树。
  4. Adaboost:Adaboost是一种Boosting技术,它通过逐步调整训练集样本的权重,每次都在之前模型的错误上进行训练。它通过组合多个弱学习器,提升整体模型的性能。Adaboost对于噪声敏感,容易受到异常值的影响。
  5. GBDT(梯度提升树):GBDT也是一种Boosting技术,它通过逐步拟合残差来训练多个弱学习器,最终将它们组合起来。GBDT的核心思想是利用梯度下降来最小化损失函数。GBDT对异常值和噪声相对较稳健,但容易过拟合。
  6. XGBoost(Extreme Gradient Boosting):XGBoost是GBDT的一种优化实现,通过引入正则化项和剪枝操作,提高了模型的泛化能力。它也支持并行处理,提高了训练速度。XGBoost在GBDT的基础上引入了正则化,可以控制模型的复杂度

问:一张图片,如果经过擦除水印模型,擦除的部分一般会有痕迹,比如白色或者均衡像素,(正常)如何实现擦除的部分还原真实颜色(比如复杂的草真实像素:例如草纸):答:数据集上进行优化,首先有原始擦除后的图片才行。这样好做损失。

问:算法上哪些方法可以实现呢?

答:不知道,

搜chatgpt:

1.数据集优化,采取其他参考周围像素( 比我的方法差)。

2:图像修复算法,OpenCV 中的 inpaint(试过不好说)

3:GAN(我为这点事情还重新训练模型?)

求大佬给出最佳答案

我的思路在损失函数的优化上:对抗性损失、内容损失和上下文损失或者。。。(我总感觉还是必须要有原始图片呀,要不然计算机知道你想要啥

手撕代码:具体问题:一张图片,黑底白字,如何代码实现获取所有连续的白字:

import cv2
import numpy as np

image = cv2.imread('your_image_path.png', cv2.IMREAD_GRAYSCALE)
white_mask = (image == 255).astype(np.uint8)

# 连通组件分析
num_labels, labels, stats, centroids = cv2.connectedComponentsWithStats(white_mask, connectivity=8)

# 提取连续的白字区域
continuous_white_regions = []
for i in range(1, num_labels):
    x, y, w, h, area = stats[i]
    continuous_white_regions.append(image[y:y+h, x:x+w])

for i, region in enumerate(continuous_white_regions):
    cv2.imshow(f"Continuous White Region {i+1}", region)

cv2.waitKey(0)
cv2.destroyAllWindows()

难点在于连续性,使用connectedComponentsWithStats,我完全不会。。。。应该会有其他方式。

总之是一场酣畅淋漓的丢人大会,我太水了,emo

反问:为啥风控要面cv。答:NLP,CV都要。

问:有啥需要改进的吗?(我感觉已经挂了) 答:项目需要深耕(你说太慢了我才打断你)

总结:感觉全程不在线

#我的失利项目复盘##牛客在线求职答疑中心#
全部评论
看起来你在面试中遇到了一些挑战,但别灰心!面试是一个学习的过程,你可以从中吸取经验,为下一次面试做好准备。以下是一些建议,希望对你有所帮助: 1. 准备充分:对于面试中可能涉及的问题,提前做好准备。例如,对于机器学习和深度学习的相关知识点,你可以提前复习,确保自己能够熟练地回答。 2. 保持冷静:面试过程中,保持冷静和自信非常重要。即使你遇到不熟悉的问题,也不要慌张,尽量保持冷静,思考如何回答。 3. 沟通技巧:在面试中,沟通技巧也非常重要。尽量用简洁明了的语言回答问题,避免使用过于复杂的术语。同时,也要注意倾听面试官的问题,确保你理解他们的问题后再进行回答。 4. 展示你的学习能力:在面试中,展示你的学习能力也非常重要。如果你遇到不熟悉的问题,可以尝试与面试官讨论你的解题思路,展示你的思考过程。 5. 反思与改进:面试结束后,反思自己在面试中的表现,找出自己的不足之处,并制定改进计划。例如,如果你觉得自己在回答技术问题时不够熟练,可以花时间复习相关知识点,提高自己的技能水平。 最后,面试失败并不意味着你就失去了机会。把它当作一个学习的过程,从中吸取经验,为下一次面试做好准备。祝你好运!
1 回复 分享
发布于 2024-02-21 17:58 AI生成
这么难啊?
点赞 回复 分享
发布于 2024-02-23 21:26 山西

相关推荐

一、面试问题A. 项目经历与业务理解1. 实习1. 先介绍一下你的这段实习经历。2. 听起来你的工作主要集中在数据/样本构建上,是吗?3. 你这里写了 VQG 和 VQA 一致性评估,这里的“一致性评估”是什么意思?4. 所以你的意思是,让大模型先生成问题,再生成答案,然后看问题和答案是否对得上,是吗?5. 所以最后是不是回答不一致的样本,就说明它比较难?6. 这个项目过程中,你有做过哪些模型方面的工作?2. LLM-as-a-Judge 项目7. 研究生阶段你还有一个 LLM-as-a-Judge 的项目,能大概介绍一下吗?8. 你最后这个总分好不好,是通过一个下游任务来验证的吗?9. 如果我理解得对,就是你打分之后选 Top 20% 的数据去微调,再和随机选 20% 做对比,是这个意思吗?10. 这个事情听起来很像样本选择,甚至有点像强化学习,你有从这个方向考虑过吗?B. 强化学习基础11. 你对强化学习了解吗?系统地学习过一些强化学习的方法吗?12. on-policy 和 off-policy 分别是什么意思?13. importance sampling 是什么?14. DPO 和 PPO 是什么关系?它们有什么区别?C. LoRA / 参数高效微调(这里因为我简历写了一个LoRA所以面试官追着来杀)15. 你在项目里用 BLIP-2 做了 LoRA 微调。LoRA 为什么可以省显存?16. 你虽然加的是一个低秩小矩阵,但不管多小,参数总归是增加了。那为什么在参数增加的情况下,LoRA 反而还能省显存?17. 推理的时候呢?推理阶段用 LoRA 和不用 LoRA,有什么区别?效率上有什么影响?D. 多模态模型 / VLM1. BLIP-2 相关(因为LLM-as-a-Judge里面提到了这个细节)18. 你为什么选择 BLIP-2 做微调?选择 BLIP-2 的考虑是什么?19. BLIP-2 相对于 BLIP 有什么改进?2. VLM 路线理解20. 你对 VLM 这条线还有哪些了解?之前有关注过哪些相关工作?21. Qwen VL 了解吗?22. 相比于 LLaVA,Qwen-VL 有哪些不一样的地方?你有没有了解过?E. Transformer / 大模型基础23. Position Encoding 是什么?有哪些分类?24. 旋转位置编码、绝对位置编码,是直接加到 token embedding 上的吗?25. 相对位置编码呢?比如 RPE 这种,它一般是加到哪里?26. decoder 里面 causal attention 是怎么实现的?F. 手撕:最长不重复子串二、反问1. 部门目前主要负责的业务内容是什么?团队主要在做哪些事情?部门整体是做风控的,负责平台上的各类风险问题。大的方向包括内容风险,比如违规图片、违规文本;也包括用户层面的欺诈、作弊等风险。具体到他们团队,主要做几类事情:一类是机器作弊流量和攻击检测,比如爬虫、自动化攻击、人工获取数据等;一类是人机验证相关能力,比如真人检测、验证码等还有一类是识别图片、文本里隐藏得很深的网址,并判断这些网址的风险,这些网址往往会把用户引到站外赌博、色情等高风险网站。2. 这个岗位平时更 focus 哪些算法领域?更希望候选人掌握哪些知识、算法方向和工程经验?首先还是需要有大模型基础,对大模型的一些基础概念和原理要比较了解。其次,像他们做隐藏网址识别这类任务,如果输入是图片、图文、视频,本质上就是一个 VLM 问题,所以也会希望候选人具备多模态/VLM 方面的理解。还有一块是 Agent,因为他们现在也在探索用 Agent 节省人力、提高效果,所以这方面也有需求。至于为什么会追问 RL,是因为 Agent 往底层看,算法基础还是会和 RL 有关系,所以他们对这方面也是有期待的。3. 这个部门属于哪个业务?是抖音还是 TikTok 相关?会和哪些部门合作?这个部门属于 Data,可以理解成字节的中台部门。风控相关的很多需求会收在他们这里,所以也可以把他们理解成风控中台。抖音和 TikTok 两边的风控中台需求都会提到他们这里,也就是说他们同时支持抖音和 TikTok 这两边的业务。4. 这份实习是日常还是暑期?HC 情况大概怎么样?转正 HC 的情况面试官自己也不太确定,目前应该还没有完全定下来,这块后续可以再和 HR 沟通。实习本身要求至少三个月,团队会更希望实习时间长一点,因为前期熟悉业务和环境本身就要花不少时间,太短的话不利于真正做出产出。5. 团队里做的内容主要是业务算法 / pipeline 搭建,还是也会有研究课题、论文产出的可能?整体还是更偏业务,不太支持以论文为导向的事情。但也不是说让实习生直接上来扛复杂业务指标。通常的做法是从复杂业务问题里,抽取出一个相对独立、偏技术、带一些探索性的点,让同学在这个方向上做出产出。所以更偏“从业务中抽技术问题来做”,而不是纯学术研究。6. 为什么字节有些组会支持论文或者研究产出,但你们组看起来不太支持?是岗位性质不一样吗?这个团队是要为业务结果负责的,所以判断标准首先是对业务有没有帮助。面试官比较直接地表达了他的看法:很多论文并不能真正解决业务问题,甚至会被视为“水论文”。他们并不是完全排斥研究,而是强调如果某个具体业务问题确实值得研究、也确实需要前沿技术去解决,那么可以研究;但最终目标仍然应该是服务业务、能落到线上,而不是为了论文本身去做。7. 这轮面试之后,我大概多久能知道结果?正常情况下大概三天之内会有结果,但最终还是要看后续 HR 推流程的节奏陪一张昨天下午在教室拍的一角夕阳
点赞 评论 收藏
分享
评论
5
45
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务