进可攻互联网退可守国企的岗位--风控算法
这个岗位竞争比较小而且需求稳定,非大佬就不要去卷搜广推啦。我讲讲风控岗位的真实体验,供参考。
1.评分卡为主的风控算法岗
比较枯燥,业务为主,做不了太多的创新,除非在蚂蚁,度小满这类的公司,有多源数据,可能能做一些其它的有意思一点的工作吧,大部分金融风控公司的数据翻来覆去就是那么一些,做不出花来,做出来了,也很难上,涉及到钱,大部分人都很保守,宁可无过,不求有功,leader大部分没有年轻人的技术热,这并不是好事也不是坏事。
平常大部分的工作内容就是做etl+数据挖掘+特征工程+xgb+上线+评估+优化这类的,简单,没什么挑战性,可替代性强,做来做去就是二分类,啥特么都是这种模式。要一辈子只做这个,后期竞争力会很弱,因为这一套你随便找个学计算机的大一学生学个半年都能上手,做的可能还比你细致。
好处在于(maybe)退可守吧,可以考虑卷不动了想办法找家银行了此余生,对了,银行也有年龄限制,另外银行和事业单位目前也都逐渐转向聘任制了,“铁饭碗” 要被撼动了。然后就是评分卡干久了想跳槽会发现,很难找纯粹互联网的,大部分愿意招你的不是继续做评分卡又给钱不多的金融科技公司,就是第三方服务公司,这类公司比较能成长的,业内也就那么几家,十个手指头都能数的过来,其它的就比较呵呵了。大部分纯粹的互联网公司没有这种应用(得物有佳物分期,其它的互联网公司暂时还没听说有什么评分卡的应用)。
然后就是评分卡干久了想跳槽会发现,很难找纯粹互联网的,大部分愿意招你的不是继续做评分卡又给钱不多的金融科技公司,就是第三方服务公司,这类公司比较能成长的,业内也就那么几家,十个手指头都能数的过来,其它的就比较呵呵了。大部分纯粹的互联网公司没有这种应用(得物有佳物分期,其它的互联网公司暂时还没听说有什么评分卡的应用)。
2.互联网反欺诈
因为反欺诈和评分卡、推广搜这类成熟的应用相比,还是蓝海,没什么太多的经验可以参照,比较有意思一些,机会也更多一些,坏处就是你必须保持不断的学习,真的很累,互联网风控反欺诈是一个对于知识广度要求很高的应用方向,一方面业务场景太多了,不同的业务场景解决问题的思路完全是不同领域甚至一个看起来显而易见的业务问题都是几个领域知识的交叉,另一方面大部分情况下没有什么标签,即使有数量也很少,即使数量多,模型的衰减也很快,并且不像推荐和评分卡那样,未来用户的标签都是自然生成的,用户点击和用户违约都是自然而然的产生标签的,所以常规的有监督那一套做起来真的很难。
关于反欺诈,内容反欺诈相对而言,会好做一些,因为像一些有问题的句子(比如留个微信号等着仙人跳,诈骗,辱骂,人身攻击等等),人的判断能力要远强过模型,这意味着内容安全的模型落地之后至少还可以做花费相对较少的时间来做模型的评估,因为看久了基本上一目十行,然后人审也会帮忙打标,所以整体还是能够尊崇nlp的一般解决问题的思路,敏感词典的构建是长期的过程,海量词典的快速匹配也有DAT这类成熟的解决方案可以大大优化敏感词的匹配速度。
至于一些黄图,暴力,政治之类的cv相关的内容安全,没怎么接触过,感觉应该比较好玩。这两个都属于可以玩出很多花样的应用,cv和nlp的各种风骚的技巧可以很好的提高炼丹能力,对抗,对比,transformer 之类的都属于相对比较有点技术含量的东西,paper也多,不愁没有思路。
而其它的,个人接触比较多的,一个是图,一个是time series outlier detection。至于常规的tabular里的outlier detection,也就是最主流的研究方向,很多时候不好用,因为主流的异常检测基本上是基于连续数据的,但是互联网反欺诈里很多重要的feature,比如ip,deviceid,idfv,phone number,或者是用户在参与一些邀请活动的时候邀请的user id,全是离散的,因此常规的outlier detection方法比如iforest,lof这类的方法都需要做encoding之后才能handle,而encoding本身是用统计特征代替离散特征,免不了出现information loss的问题。