聊聊怎样通过实习,直通多个“人才计划”

背景:

楼主是25届的应届生,国内计算机985本硕,目前在可灵大模型团队的数字人小组实习。非常荣幸参与了前阵子爆爆爆火🔥的可控人像视频生成开源项目LivePortrait。LivePortrait已经在可控人像视频生成与编辑子方向建立了良好的生态,我陪伴了这个项目从发布,到现在取得HugginFace🤗 150W+人次访问、GitHub 1.2W🌟的成绩,社区二次开发者贡献了多个数百上千🌟的项目,引导了良好的社区生态发展,多家竞品或者创业公司基于LivePortrait上线了一些业务或者做产品化。我也是借着本项目的“威风”,在25届秋招中拿到了多个人才计划的入场券,在秋招路上一帆风顺。

LivePortrait的成功离不开团队的各位同学对AI技术的深刻思考,以及整个团队在维护本项目,提升用户体验上做出的努力,我将以一名实习同学的角度谈谈我在本项目中的理解与收获,欢迎点赞、评论、收藏🙏。

思考与决策:

我的mentor是本项目的领导者和第一完成人!(牛不牛!你就说牛不牛!)

我非常佩服他敏锐的判断与决策:目前在人像视频生成领域,扩散模型占据了主导地位,如腾讯的AniPortrait、字节的X-Portrait和旷视的MegActor等一系列工作都采用了类似的框架。我们认为一项新技术脱颖而出的关键在于与其他已有技术的差异化,众所周知,扩散模型对计算资源有着较重的依赖,这个问题在视频生成领域被严重放大。开源社区的绝大部分普通用户没有那么好的GPU,等待一个视频生成的过程是痛苦且漫长的,甚至因为大显存需求望而却步。我们决定与当前主流的扩散模型方法背道而驰,探索基于隐式关键点GAN框架的潜力,以找到模型计算效率和可控性的平衡。

这个决策是绝对正确的,我们让许多只有4G/8G显存消费级显卡的用户也体验到了视频生成技术,LivePortrait的部分支持者来自于这一群体。

技术要点:

LivePortrait选择了著名的隐式关键点框架Face Vid2vid作为基础,在此之上做了一系列改进,在此我挑几点做简要介绍,欢迎感兴趣的大佬到论文查询更多细节。

第一阶段训练框架

第一阶段训练数据和训练策略:

LivePortrait的总训练数据有69M视频帧,包含18.9K身份和60K静态风格化人像。其中包括公开视频数据集Voxceleb,MEAD,RAVDESS和风格化图片数据集AAHQ、一个私有的数据集LightStage,以及一些风格化的视频和图片。此外,还使用了200余小时的4K分辨率的人像视频,其中包含不同的表情和姿态。我们将长视频分割成少于30秒的片段,并确保每个片段只包含一个人。为了保证训练数据的质量,我们使用了KVQ算法(快手自研的视频质量评估方法,能够综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价)来过滤低质量的视频片段。   

仅使用真人人像视频训练的模型对于真人人像表现良好,但对风格化人像(例如动漫)的泛化能力不足。风格化视频数据较为稀有,我们从不到100个身份中收集了仅约1.3K视频片段,相比之下,高质量的风格化人像图片更为丰富,我们收集了大约60K身份互异的图片。为了利用这两种数据类型,我们将每张图片视为一帧视频片段,并同时在视频和图片上训练模型。这种混合训练提升了模型的泛化能力。

第二阶段贴合和重定向模块训练:

我们将隐式关键点视为隐式变形组合,并发现这种组合可以通过一个轻量级的 MLP 进行有效学习。为满足实际需求,我们设计了贴合、眼部重定向和嘴部重定向模块。贴合模块用于避免裁切图像反贴回原始空间时的像素错位问题,如肩膀区域错位。这样,LivePortrait 能够驱动更大尺寸的图片或多人合照。眼部重定向模块解决了跨身份驱动时眼睛闭合不完全的问题,尤其是小眼睛驱动大眼睛时。嘴部重定向模块的设计与眼部类似。

第二阶段训练框架

在训练时我们跨身份训练贴合模块,以提高泛化性,并在反贴过程中保持像素一致性,尤其是肩膀区域。眼部和嘴部重定向模块根据输入条件调整眼/嘴的张开程度,确保驱动过程中的视觉一致性,它们的变化量是独立的,推理时可以结合并更新隐式关键点。

维护:

我们一键三连地发布了论文、主页和代码后,短时间内收到了用户大量issues,邮箱处于爆炸的状态,我们非常耐心地复现着用户提到的每一个bug,并做出礼貌又及时的回复;我们严格把控每一次commit的质量与规范,以及对社区开发者们的PR测试审查。

我们还建立了一个文档,收集了用户的高频新功能需求,其中包括多操作系统支持、视频编辑、一键整合包、支持动物编辑等等,我们对这些需求进行优先级排列,排好了日程表。我们常常为了一个新功能发布ddl在公司熬到凌晨,我们不断兑现了一个又一个对用户的承诺...

还记得有一次,我们收到了大量Windows用户的错误反馈,以及对环境安装成本过高的抱怨。因为手上没有Windows的GPU机器,我的mentor二话不说拉上了小推车带着我到别的办公楼去借一台高性能的Windows机器...不久后我们推出了傻瓜也会使用的Windows一键包,无需安装任何环境双击即可运行项目,收到了用户大量好评,国内AI自媒体大V卡兹克也为此写下了积极的评价。

未来计划:

LivePortrait目前支持i2i/i2v/v2v多种驱动效果,我们注意到许多用户对audio驱动能力的关注。其中Talking Head领域的一些方法,例如阿里的EMO和字节的Loopy等能够实现这个功能,我们目前也在探索并提升在LivePortrait框架下audio驱动效果,同时也欢迎各位对LivePortrait有兴趣的大佬们来探索LivePortrait更多玩法,共建更好的生态。

我的分享到这里就结束了,最后,非常感谢我的mentor和我的团队带我参与了这个项目,同时也非常欢迎各位对技术有热情的同学加入快手,加入可灵大模型团队,得到历练和成长,给大家附上我的内推码,内推码:RGrzyPsBE,专属内推链接:https://campus.kuaishou.cn/#/campus/jobs?code=RGrzyPsBE 祝大佬们秋招春招实习顺利🦆!

#快手校招#
全部评论
非常羡慕你有这么棒的实习经历,自己作为非工科出身,很想要有技术加持,但也知道这学习得来会很不容易,棒棒哒🎊,可灵大模型团队好厉害,有这么一个高水平的队伍,怎么会不愁没有提升呢,希望自己在以后的实习中像你一样,学习到很多东西,一步步成长为想成为的那个人
1 回复 分享
发布于 09-29 20:42 四川
哈哈这个图好魔性
点赞 回复 分享
发布于 09-25 11:09 江苏
太牛了佬
点赞 回复 分享
发布于 09-25 11:12 湖南
慕了
点赞 回复 分享
发布于 09-25 11:19 广东
大佬
点赞 回复 分享
发布于 09-25 11:25 上海
9您吉祥
点赞 回复 分享
发布于 09-25 11:45 湖北
转正了吗你
点赞 回复 分享
发布于 09-25 12:31 陕西
大佬666
点赞 回复 分享
发布于 09-25 20:56 北京
太强了佬
点赞 回复 分享
发布于 09-26 10:40 北京
9✌️
点赞 回复 分享
发布于 09-26 19:51 广东

相关推荐

不愿透露姓名的神秘牛友
11-07 14:35
点赞 评论 收藏
分享
44 41 评论
分享
牛客网
牛客企业服务