我在阿里妈妈做风控算法——摘自【阿里妈妈招聘】公众号


先简单介绍下自己,我是一名95年的风控算法工程师,兼深度学习资深炼丹师。2020年7月份于中科院自动化所毕业后加入的阿里妈妈,目前在风控技术团队负责广告内容风控的相关工作。梦想是业务风险密度无限趋于0,算法准召、F1无限趋于1。
算上之前在阿里实习的时间,来公司也快有两年了。经历了实习期的新鲜感、第一年的探索和彷徨之后,2021年是个人成长最快的一年,收获了很多新的认知和业务理解,也更加明确如何让算法技术为风控业务带来更多的安全感。但在这里,我想抛开技术,单纯记录下自己这两年的打怪升级经验和心路历程,希望为即将加入或者刚加入阿里的学弟学妹们提供些借鉴经验。
启 缘起阿里" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580829666/D9BC5A2074BBD40181569286F6BF714E"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580829666/D9BC5A2074BBD40181569286F6BF714E"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580829666/D9BC5A2074BBD40181569286F6BF714E"/>

初心】

的最后一段校园生活是在中科院自动化所度过的,那里也是国内最早从事AI相关工作的地方。只是早些时候人工智能没那么火的时候,更多是用机器学习、模式识别等子领域来对外介绍自己的方向,比如我所在的实验室就叫做模式识别实验室。之后随着图像分类、人脸识别等智能算法的大规模落地,才统一用AI(Artificial Intelligence)来称呼。

读研期间,我的研究方向为目标检测,包含人脸、行人和通用物体检测等,这也跟我现在的工作内容息息相关。在实验室的生活,简单却也有些枯燥,每天都是看论文、找问题、想idea和实现idea,如果work的话,就写个论文或者专利。学术界评价算法模型的方式也很简单,看公开数据集上谁的算法指标更高或者模型性能更好。研二上学期,我在地平线(Horizon Robotics)实习,那是第一次进入工业界,见识到了工业界和学术界的gap。在学术界,所有问题都是明确定义好的,数据集、模型和评价指标都是确定的,我们只需要优化模型就能解决问题。但是在工业界,很多时候问题都是不明确的,没有数据集和可参考方案,甚至连评价都很难评价。例如风控领域,如何评价算法的召回率就是一个老大难问题,因为你永远无法知道大盘的真实风险数量。这也使得很多高逼格模型在实践中都很难落地,许多paper里的idea在实际任务中都不work。相比于实验室的科研生活,工业界有着更多待解决的更具挑战的任务,尽管艰难,但每一次算法突破都能带来真实的业务提升。

那时候的自己就有了一个想法,我想去工业界看看,做出能真正落地的算法,让自己的模型/算法能得到更多人的使用和认可。因此研二我婉拒了导师的转博机会和留实验室工作机会,毅然投入到了庞大的找工作大军中。尽管未来因此充满了许多不确定性,但我还是想试试,想忠于自己的内心。

初识阿里】
二下学期,大家都开始寻找实习机会,在和导师沟通之后,我也难得获得了2个月的实习时间。在2019年那个有阿选阿的年代,阿里是公认的国内top互联网公司,也是我的首选目标。在导师和师兄们的推荐下,我投了阿里妈妈部门,希望能在业务部门将算法落地,解决业务中真实存在的问题。

2019年7月份,我开始了自己的实习工作,负责的内容是品牌logo检测算法的研发。当时阿里妈妈在品牌识别方面,主要依靠接入集团的算法能力,但该算法仍是基于传统特征算子,在模型效果和性能方面都不太能满足日益复杂的业务管控需求。而利用深度学习来实现品牌logo的检测,在当时也算是一个比较新的尝试,因为品牌logo的款式、类型变异极大,相较于人脸、行人等高确定性特征物体,识别难度还是很大的,也不太确定能否达到预期效果。不过好在毕竟是自己的研究方向,在模型的选型、方案设计和模型优化等方面,还是比较擅长的。前后耗时将近3个月的时间,完成了全套算法的构建,并在工程同学的帮助下,赶在双十一之前完成了模型的部署,并取得了极为显著的业务效果。该模型自2019年10月份上线之后,一直支撑着品牌风险识别的需求,直到去年才被我用更加先进的模型所替换。

这是我在阿里开发的第一个模型,也是自己第一次尝试去解决一个未明确定义的问题,确实收获了许多不一样的认知。实习结束之后,我也更加明确后续加入阿里的决心和信心。

承 新人Landing" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580863821/3C7BD61EA61DF300627D0B9108CD0000"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580863821/3C7BD61EA61DF300627D0B9108CD0000"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580863821/3C7BD61EA61DF300627D0B9108CD0000"/>

野蛮生长】

2020对我来说是极不平凡的一年,因为新冠疫情,整个研三下半年都是在家里度过的,远程开会、写毕业论文、远程答辩等,没有毕业典礼,也没有离别送行,校园生活就此结束。2020年7月13日,我正式入职阿里,但团队当时正在经历变化,实习期间带我的师兄和主管都刚刚离职,我对自己接下来要做的事情非常不确定。不过所幸团队里的师兄都很nice,热心帮我解决问题和融入工作,从校园生活转变到工作中,倒也没有太多的不适。

刚入职时,团队leader说过,新人来到阿里要保持野蛮生长的状态,不要为自己设限,时刻保持求知欲和好奇心。当时的自己其实并不能深刻体会其中的含义,但在之后的工作中才慢慢理解。读研期间,虽然每个人都有自己的研究方向,但这不代表着你学的什么,工作之后就必须做什么。很多业务问题的复杂度,并不是一个或两个模型/算法能够解决的,需要多种模型的相互配合,才能构成一个完备的识别体系。这个时候,不论是CV模型还是NLP模型,不论是深度算法还是工程优化算法,都只是一种工具,都是算法工程师需要掌握的解决业务问题的方式方法。正如阿里一句土话所说,全力以赴拿结果。在业务中,不论黑猫还是白猫,能抓老鼠的才是好猫。我们需要不断扩充自己的认知边界和知识体系,从算法工程师努力成长为全栈工程师,从问题定义、特征拆解、数据构建、模型设计、工程优化,再到最终的部署上线,提供一站式解决方案。这样一套完整的知识体系储备,才能构建起属于自己的业务和技术壁垒,不为自己设限,多做尝试总是好事。


寻找自己的价值】

于刚入职的新同学来说,融入到团队中,找到自己的团队价值和业务价值是非常重要的事情。谁都想要那种被需要的感觉,谁都不想自己是可有可无的。不论是业务需求还是团队建设需求,找到被需要的感觉对新人来说是很重要的。

我刚入职的第1个月也是挺迷茫的,找不到自己在团队中的定位和价值。自己做的事情,都是基于团队已有算法框架的应用,谁都能做,渐渐的也有点迷茫和担心。因此我也在思考,有什么东西是别人没做的,而我能去尝试做一下的。后来在和主管的闲聊中,了解到当时团队最急缺的算法需求为人脸识别,虽然临时对接了集团的识别能力,但不论是计算吞吐,还是业务灵活度方面,都还不能满足需求,迫切需要有一个自研的人脸识别算法。这对于当时的我来说,确实是个很好的机会,但面对的压力也很大。冷启动阶段,没有数据,没有模型,甚至连知识储备都是欠缺的。和其他算法不同,人脸识别是一个非常复杂的算法系统,牵扯到的算法包括人脸检测、关键点定位、人脸校正、人脸特征提取、特征检索等多个环节,每一个环节都是一个独立的完整模块,不像分类还是检测任务,一个模型就能cover。这对当时的自己既是挑战,也是机会,我也需要这个机会去证明自己。之后经过两个多月的折磨之后,所幸人脸识别模型赶在双十一之前如期完成。上线之时,也受到过运营的质疑,毕竟要用一个新人开发的模型,替换一个稳定运行的成熟模型,谁都觉得不靠谱。不过好在最后一切顺利,2020年双十一,新模型正式上线;2021年双十一,经历多版本优化后,完成全场景的替换。看着日常上亿级别的模型调用量,一切都是值得的。

对新人来说,短期内找不到自己的定位很正常,但要利用这段时间,多去思考团队目前需要的是什么,寻找潜在的业务或者算法价值。之后便是主动承担起责任,努力将这份价值兑现


转 一年香" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580896924/DA95FAE039640A4EF71574FF11C96E88"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580896924/DA95FAE039640A4EF71574FF11C96E88"/>" src="https://uploadfiles.nowcoder.com/images/20210810/63_1628580896924/DA95FAE039640A4EF71574FF11C96E88"/>

按照阿里的年陈文化,入职满一年之后,叫做一年香。我是在2021年的7月份拿到的一年香徽章,工牌卡带也变成了黄色,还剩下橙色、红色和金色卡带,希望自己能集齐四色卡带,到时候一定会再写个10年回忆总结,哈哈。


左边为新人卡带,右边为一年香卡带


一年的时间,基本适应了阿里的工作节奏,逐渐找到自己的定位和价值。之后的目标便是继续成长,进一步扩展自己的业务价值。FY21财年,自己的工作重心都在算法/模型的能力建设上,虽然解决了很多实际算法问题,但在业务方面的成长确实有限,也暴露了一些问题。在总结了经验教训之后,FY22这一年里,自己的一些收获分享如下:

——算法壁垒,简单有效原理。算法没有壁垒,真正的壁垒在于数据和领域知识。模型没有高低之分,简单有效即为合理。

——对齐目标,做好预期管理。定期和主管对齐目标,确保你做的事情,和团队建设大方向保持一致。对业务方不过高承诺,实事求是。

——业务思考很重要。来源于业务思考的模型,才能真正解决业务问题。

——坚持正确的事情。坚持做正确的事情,做有利于个人发展的事情。 

算法壁垒,简单有效原理】

于算法工程师来说,壁垒不在于模型,而在于数据。对于同一批数据集,尽管不同的算法工程师能训练得到不同效果的模型,但在业务中,这些指标的差异并不会带来肉眼可见的业务效果变化。随着各种算法模型和框架的开源,算法的复制成本是很低的,因此算法很难成为壁垒,能形成壁垒的就是数据和领域知识了。很多情况下,数据集的完备性和纯净度,才是制约模型效果的关键。日常的很多工作,其实都在如何获取更多有价值的样本,样本量不足,再简单的任务都很难拟合。对业务部门来说,数据和业务是紧密相关的,了解业务的本质就是了解数据和构建领域知识的过程。算法的学习成本很低,但领域知识的学习和数据获取的成本很高。

对于算法同学,特别是刚踏入工作岗位的同学来说,容易陷入一种盲目的技术憧憬中。模型设计阶段,喜欢构建非常复杂的模型,堆砌各种高大上的算法,但在实际业务中的收益并不明显,且容易带来不必要的工程计算压力。这时候就应该遵循经典的奥卡姆剃刀原理,简单有效即为合理。这就如同数学建模一样,对于给定的复杂问题,通过各种抽象和特征定义,将复杂的问题简单化,用简单的方法解决复杂的问题,对业务的帮助才能最大化。


对齐目标,做好预期管理】

考核阶段,很重要的前提是你的产出和主管的预期目标能保持一致,这点对于新同学来说很重要。否则你可能努力工作了一年,结果辛苦产出的结果却并不是主管想要的,这就容易导致最终的结果和自己预期会有比较大的gap。在做事情之前,一定要和主管对齐目标,确保自己后续的工作和团队大方向、主管预期保持一致,避免劳而无功。

面对日常算法需求的时候,要做好业务方的期望管理。要提前分析好问题的难点,不要轻易承诺业务效果,实事求是。在实践中,很多问题的难度是远超预期的,如果过高承诺效果,容易导致最终产出和运营预期存在较大gap,这也会为后续的优化上线和运营规则配置带来麻烦。此外,预期管理对于个人同样重要,人之所以会感觉到不甘,很多情况下是自己的预期和实际结果存在gap,gap越大越难受。因此做好个人的预期管理,不预先设定过高的期待值,非常重要。

【业务思考很重要】

业务部门,对业务思考的深度和带来的业务价值非常重要,这点对于算法和开发岗的同学同样重要。不论何种形式的考核,都会先看个人的业务思考深度,以及为业务发展带来的价值。而这两点在很多情况下,容易被算法或者开发同学所忽略。因为在技术人的惯性思维里,解决了棘手问题,设计了高大上的算法所获得的成就感,比业务成就带来的满足感要高的多。这也使得有时候我们会陷入到这种思维里,一味追求创新,追求算法的先进性,却忽略了很多跟业务效果更加紧密相关的环节,如数据准备/清洗,模型迭代等。最终使得模型效果大打折扣。

为了避免上述问题,在模型设计阶段,需要提前了解业务背景,了解制约当前业务发展最紧迫的环节,再针对性地设计算法,实现真正的头痛医头脚痛医脚,带来最明确的业务效果提升。在内容风控领域,业务思考非常重要。特别是对于一些底限类风险,如何设计出更加具有安全感,更具完备性的识别算法,离不开个人对业务风险的深刻理解和思考。单纯依靠运营输入的知识远远不够,不要让运营告诉你有哪些类型的风险,以及需要哪些识别能力。他们的建议只是参考,更重要的是要从全局的角度去对问题进行拆解,多想多看,运营的管控需求始终只是你模型识别能力的子集。有些类型的风险并不是不管,只是他们没有想到,要尝试创造管控需求。以我的品牌logo识别工作为例,我之前的工作重心都是投入到风险的召回方面,却忽略了业务管控的标准要求。尽管模型的识别精度很高,但是很多无关商品、山寨相关的风险在业务中是不管控的,使得模型精度和业务精度存在极大的gap。之后重新分析了这部分人审通过的风险数据之后,设计了无关商品自动过滤模型,才真正解决了业务上精度不足的问题。


坚持正确的事情】
作也好,为人也罢,还是要坚持做自己坚信的认为正确的事情。外界评价和业务指标有时候并不是判断自己工作的绝对标准,更重要的,是要看自己所做的,是否是真正正确的事情,真正利于个人技术提升和业务发展的事情。例如对于一些底限类风险,可能很努力地设计了许多风险兜底模型,但大盘上因为风险spam极低,看不到业务效果。但这并不意味着这件事情没有意义,相反底限类风险的布防才是关乎内容风控安全的生死问题。

合 不忘初心" src="https://uploadfiles.nowcoder.com/images/20191018/63_1571398958756_9EB9CD58B9EA5E04C890326B5C1F471F"/>" src="https://uploadfiles.nowcoder.com/images/20191018/63_1571398958756_9EB9CD58B9EA5E04C890326B5C1F471F"/>" src="https://uploadfiles.nowcoder.com/images/20191018/63_1571398958756_9EB9CD58B9EA5E04C890326B5C1F471F"/>

写在最后,今天是正式入职阿里的第610天,不论未来还会在阿里走多久,希望自己能始终不忘一个技术人的初心,做出真正有利于业务发展,为风控带来实实在在安全感的算法阿里妈妈春季2023届校园招聘进行中,想加入我们风控团队,一起让业务风险密度无限趋于0吗?快关注【阿里妈妈招聘】获取专属内推二维码投递我们吧~

我们在招的岗位:算法工程师-机器学习,数据科学,Java,请点击下方链接了解更多:

点击“我在阿里妈妈做风控算法”查看原文~


#阿里2023春招##阿里巴巴##内推##实习#
全部评论

相关推荐

点赞 评论 收藏
分享
1 6 评论
分享
牛客网
牛客企业服务