拼多多风控算法挂经

项目拷打:项目细节展开,多次打断然后问细节。(态度还是很好的,是我没有讲清楚,明明是end2end,我说错了),其实从这里开始就比较离谱了,我全程不在频道。我感觉还没说完,被打断:以我的经验,这不可能(确实)。

U-Net多尺度如何实现,共享参数如何实现,OCR的一些技术栈等,

Laplace变化的目的?(可能是因为我有工科背景?)答:时频转换,简化方程,稳定性分析等,控制系统也需要,通过 Laplace 变换,可以将控制系统的动态响应表示为传递函数

会不会C++,Java巴拉巴拉

问了很多机器学习的知识点:

决策树、Random Forest、Booting、Adaboot)GBDT和XGBoost的区别是什么?

  1. 决策树(Decision Tree):决策树是一种基于树状结构的模型,通过对数据集进行递归分割来进行决策。每个节点表示一个特征,每个分支代表一个决策规则。决策树容易过拟合,对数据的小变化敏感。
  2. 随机森林(Random Forest):随机森林是通过集成多个决策树来提高模型的性能。它采用Bagging技术,对训练集进行有放回抽样,然后训练多个决策树,最后将它们的预测结果进行平均。随机森林能够减少过拟合,提高模型的泛化性能。
  3. Bagging:Bagging是一种集成学习技术,通过对训练集进行有放回抽样,训练多个模型,最后通过投票或平均来决定最终结果。它可以用于不同的基本学习器,不仅限于决策树。
  4. Adaboost:Adaboost是一种Boosting技术,它通过逐步调整训练集样本的权重,每次都在之前模型的错误上进行训练。它通过组合多个弱学习器,提升整体模型的性能。Adaboost对于噪声敏感,容易受到异常值的影响。
  5. GBDT(梯度提升树):GBDT也是一种Boosting技术,它通过逐步拟合残差来训练多个弱学习器,最终将它们组合起来。GBDT的核心思想是利用梯度下降来最小化损失函数。GBDT对异常值和噪声相对较稳健,但容易过拟合。
  6. XGBoost(Extreme Gradient Boosting):XGBoost是GBDT的一种优化实现,通过引入正则化项和剪枝操作,提高了模型的泛化能力。它也支持并行处理,提高了训练速度。XGBoost在GBDT的基础上引入了正则化,可以控制模型的复杂度

问:一张图片,如果经过擦除水印模型,擦除的部分一般会有痕迹,比如白色或者均衡像素,(正常)如何实现擦除的部分还原真实颜色(比如复杂的草真实像素:例如草纸):答:数据集上进行优化,首先有原始擦除后的图片才行。这样好做损失。

问:算法上哪些方法可以实现呢?

答:不知道,

搜chatgpt:

1.数据集优化,采取其他参考周围像素( 比我的方法差)。

2:图像修复算法,OpenCV 中的 inpaint(试过不好说)

3:GAN(我为这点事情还重新训练模型?)

求大佬给出最佳答案

我的思路在损失函数的优化上:对抗性损失、内容损失和上下文损失或者。。。(我总感觉还是必须要有原始图片呀,要不然计算机知道你想要啥

手撕代码:具体问题:一张图片,黑底白字,如何代码实现获取所有连续的白字:

import cv2
import numpy as np

image = cv2.imread('your_image_path.png', cv2.IMREAD_GRAYSCALE)
white_mask = (image == 255).astype(np.uint8)

# 连通组件分析
num_labels, labels, stats, centroids = cv2.connectedComponentsWithStats(white_mask, connectivity=8)

# 提取连续的白字区域
continuous_white_regions = []
for i in range(1, num_labels):
    x, y, w, h, area = stats[i]
    continuous_white_regions.append(image[y:y+h, x:x+w])

for i, region in enumerate(continuous_white_regions):
    cv2.imshow(f"Continuous White Region {i+1}", region)

cv2.waitKey(0)
cv2.destroyAllWindows()

难点在于连续性,使用connectedComponentsWithStats,我完全不会。。。。应该会有其他方式。

总之是一场酣畅淋漓的丢人大会,我太水了,emo

反问:为啥风控要面cv。答:NLP,CV都要。

问:有啥需要改进的吗?(我感觉已经挂了) 答:项目需要深耕(你说太慢了我才打断你)

总结:感觉全程不在线

#我的失利项目复盘##牛客在线求职答疑中心#
全部评论
看起来你在面试中遇到了一些挑战,但别灰心!面试是一个学习的过程,你可以从中吸取经验,为下一次面试做好准备。以下是一些建议,希望对你有所帮助: 1. 准备充分:对于面试中可能涉及的问题,提前做好准备。例如,对于机器学习和深度学习的相关知识点,你可以提前复习,确保自己能够熟练地回答。 2. 保持冷静:面试过程中,保持冷静和自信非常重要。即使你遇到不熟悉的问题,也不要慌张,尽量保持冷静,思考如何回答。 3. 沟通技巧:在面试中,沟通技巧也非常重要。尽量用简洁明了的语言回答问题,避免使用过于复杂的术语。同时,也要注意倾听面试官的问题,确保你理解他们的问题后再进行回答。 4. 展示你的学习能力:在面试中,展示你的学习能力也非常重要。如果你遇到不熟悉的问题,可以尝试与面试官讨论你的解题思路,展示你的思考过程。 5. 反思与改进:面试结束后,反思自己在面试中的表现,找出自己的不足之处,并制定改进计划。例如,如果你觉得自己在回答技术问题时不够熟练,可以花时间复习相关知识点,提高自己的技能水平。 最后,面试失败并不意味着你就失去了机会。把它当作一个学习的过程,从中吸取经验,为下一次面试做好准备。祝你好运!
1 回复 分享
发布于 02-21 17:58 AI生成
这么难啊?
点赞 回复 分享
发布于 02-23 21:26 山西

相关推荐

( 发的有点晚,上个月面的面试官属于慢慢引导你的那种,气氛很融洽;hr也很热心;公司第一印象宽敞且舒适问的问题:0. 把我当成小白,给我讲一个你觉得做的比较好的项目讲的是自己做的那个大模型RAG应用,但是实际上讲的比较混乱,重新梳理后核心就这几个东西- Prompt:提问 & 提示词- Embedding:词嵌入- similarity_research:向量匹配- Rerank:结果过滤追问:Embedding的过程具体起到什么用答的不好1. Embedding 过程实际上是将高维、离散的数据映射到低维、连续的向量空间中。这种映射旨在保持数据在原始空间中的相似性,使得在向量空间中相近的嵌入向量表示的数据在原始空间中也是相似的。2. 过程a. 初始化首先,需要定义嵌入向量的维度(即每个数据点将被映射到的向量的大小)。然后,通常随机初始化一个嵌入矩阵,其行数等于数据集中唯一数据点的数量,列数等于嵌入向量的维度。b. 学习在训练过程中,嵌入矩阵是通过优化一个目标函数来学习的。这个目标函数通常与任务相关,比如在推荐系统中,可能希望相似的物品有相近的嵌入向量。通过梯度下降等优化算法,模型会更新嵌入矩阵中的权重,使得相似的输入数据在嵌入空间中靠近,而不相似的则远离。c. 优化在学习过程中,可能会应用一些技巧来改善嵌入的质量,如使用负采样、正则化、dropout等。d. 应用一旦嵌入向量被学习好,它们就可以用于各种下游任务,比如文档相似度计算、推荐系统、图像分类等。1. http和https的区别,https相比于http,安全性体现在哪方面没复习,就记得ssl和ca了区别:- 加密:http不加密,使用明文传输;https使用ssl和tls加密- 认证:https通过证书验证服务器身份- 端口:80,443安全性:- https采用对称加密和非对称加密结合的方式- https采用CA验证服务器身份- 通过hash或mac(消息认证码)来保证数据完整性- 序列号机制,防止重复信息的发送2. 浏览器缓存没复习到,忘了强缓存:浏览器直接使用本地缓存,不与服务器交互,直到缓存过期。(字段:Expires,Cache-Control)协商缓存:浏览器每次请求资源都会与服务器进行通信,通过对比资源的修改状态来决定是否使用缓存。(字段:Last Modified,Etag)3. 为什么项目使用JWT而不使用Sessions作为认证?当时设计时没考虑到JWT组成:- head,通过base64编码- payload,指定算法加密- signature,指定密钥JWT的特点:无状态,无需储存在服务器中,但是需要进行解码运算,跨域支持好;适合频繁认证的场景Session的特点:存储于服务器,有状态;灵活性高,可以随时删除,跨域支持一般;适合低频认证、需要高安全性的场景4. tailwind对性能优化体现在什么方面按打包方面发挥了,这方面没做过功课有三个方面:浏览器:JIT辅助开发打包:purge、tree-shaking等减少打包体积开发:减少重复代码的书写、减少记忆成本5. 按输入监听即时查询的输入框和鼠标点击搜索才进行查询的输入框你认为他们各自在什么场景更合适憋了一会,答的是三个因素- 搜索条件数量与复杂度- 搜索词与匹配词之间的匹配精确/模糊程度- 服务器性能开销查了查还有其它方面可以说- 用户体验(用户习惯 / 搜索体验 / 搜索效率 / 用户辅助-即时搜索与自动补全)- 安全性(即时搜索会暴露更多的数据)6. 讲讲你对闭包的理解7. 讲一讲http接口(get,post)非技术上,面试官给我的建议(主要是自己比较紧张- 手部动作有点多- 声音可以适当放大一点我个人感觉到的自己的问题- 逻辑角度讲的有些多,往后才慢慢回到技术角度我整体上答得都一般,但是面试体验很好Update:应该是被刷KPI了,快一个月没消息了,这也让我反思了一下随意和融洽这两个词的区别目前已入职另一家公司
查看9道真题和解析
点赞 评论 收藏
分享
评论
5
37
分享
牛客网
牛客企业服务