聊聊怎样通过实习,直通多个“人才计划”

背景:

楼主是25届的应届生,国内计算机985本硕,目前在可灵大模型团队的数字人小组实习。非常荣幸参与了前阵子爆爆爆火🔥的可控人像视频生成开源项目LivePortrait。LivePortrait已经在可控人像视频生成与编辑子方向建立了良好的生态,我陪伴了这个项目从发布,到现在取得HugginFace🤗 150W+人次访问、GitHub 1.2W🌟的成绩,社区二次开发者贡献了多个数百上千🌟的项目,引导了良好的社区生态发展,多家竞品或者创业公司基于LivePortrait上线了一些业务或者做产品化。我也是借着本项目的“威风”,在25届秋招中拿到了多个人才计划的入场券,在秋招路上一帆风顺。

LivePortrait的成功离不开团队的各位同学对AI技术的深刻思考,以及整个团队在维护本项目,提升用户体验上做出的努力,我将以一名实习同学的角度谈谈我在本项目中的理解与收获,欢迎点赞、评论、收藏🙏。

思考与决策:

我的mentor是本项目的领导者和第一完成人!(牛不牛!你就说牛不牛!)

我非常佩服他敏锐的判断与决策:目前在人像视频生成领域,扩散模型占据了主导地位,如腾讯的AniPortrait、字节的X-Portrait和旷视的MegActor等一系列工作都采用了类似的框架。我们认为一项新技术脱颖而出的关键在于与其他已有技术的差异化,众所周知,扩散模型对计算资源有着较重的依赖,这个问题在视频生成领域被严重放大。开源社区的绝大部分普通用户没有那么好的GPU,等待一个视频生成的过程是痛苦且漫长的,甚至因为大显存需求望而却步。我们决定与当前主流的扩散模型方法背道而驰,探索基于隐式关键点GAN框架的潜力,以找到模型计算效率和可控性的平衡。

这个决策是绝对正确的,我们让许多只有4G/8G显存消费级显卡的用户也体验到了视频生成技术,LivePortrait的部分支持者来自于这一群体。

技术要点:

LivePortrait选择了著名的隐式关键点框架Face Vid2vid作为基础,在此之上做了一系列改进,在此我挑几点做简要介绍,欢迎感兴趣的大佬到论文查询更多细节。

第一阶段训练框架

第一阶段训练数据和训练策略:

LivePortrait的总训练数据有69M视频帧,包含18.9K身份和60K静态风格化人像。其中包括公开视频数据集Voxceleb,MEAD,RAVDESS和风格化图片数据集AAHQ、一个私有的数据集LightStage,以及一些风格化的视频和图片。此外,还使用了200余小时的4K分辨率的人像视频,其中包含不同的表情和姿态。我们将长视频分割成少于30秒的片段,并确保每个片段只包含一个人。为了保证训练数据的质量,我们使用了KVQ算法(快手自研的视频质量评估方法,能够综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价)来过滤低质量的视频片段。   

仅使用真人人像视频训练的模型对于真人人像表现良好,但对风格化人像(例如动漫)的泛化能力不足。风格化视频数据较为稀有,我们从不到100个身份中收集了仅约1.3K视频片段,相比之下,高质量的风格化人像图片更为丰富,我们收集了大约60K身份互异的图片。为了利用这两种数据类型,我们将每张图片视为一帧视频片段,并同时在视频和图片上训练模型。这种混合训练提升了模型的泛化能力。

第二阶段贴合和重定向模块训练:

我们将隐式关键点视为隐式变形组合,并发现这种组合可以通过一个轻量级的 MLP 进行有效学习。为满足实际需求,我们设计了贴合、眼部重定向和嘴部重定向模块。贴合模块用于避免裁切图像反贴回原始空间时的像素错位问题,如肩膀区域错位。这样,LivePortrait 能够驱动更大尺寸的图片或多人合照。眼部重定向模块解决了跨身份驱动时眼睛闭合不完全的问题,尤其是小眼睛驱动大眼睛时。嘴部重定向模块的设计与眼部类似。

第二阶段训练框架

在训练时我们跨身份训练贴合模块,以提高泛化性,并在反贴过程中保持像素一致性,尤其是肩膀区域。眼部和嘴部重定向模块根据输入条件调整眼/嘴的张开程度,确保驱动过程中的视觉一致性,它们的变化量是独立的,推理时可以结合并更新隐式关键点。

维护:

我们一键三连地发布了论文、主页和代码后,短时间内收到了用户大量issues,邮箱处于爆炸的状态,我们非常耐心地复现着用户提到的每一个bug,并做出礼貌又及时的回复;我们严格把控每一次commit的质量与规范,以及对社区开发者们的PR测试审查。

我们还建立了一个文档,收集了用户的高频新功能需求,其中包括多操作系统支持、视频编辑、一键整合包、支持动物编辑等等,我们对这些需求进行优先级排列,排好了日程表。我们常常为了一个新功能发布ddl在公司熬到凌晨,我们不断兑现了一个又一个对用户的承诺...

还记得有一次,我们收到了大量Windows用户的错误反馈,以及对环境安装成本过高的抱怨。因为手上没有Windows的GPU机器,我的mentor二话不说拉上了小推车带着我到别的办公楼去借一台高性能的Windows机器...不久后我们推出了傻瓜也会使用的Windows一键包,无需安装任何环境双击即可运行项目,收到了用户大量好评,国内AI自媒体大V卡兹克也为此写下了积极的评价。

未来计划:

LivePortrait目前支持i2i/i2v/v2v多种驱动效果,我们注意到许多用户对audio驱动能力的关注。其中Talking Head领域的一些方法,例如阿里的EMO和字节的Loopy等能够实现这个功能,我们目前也在探索并提升在LivePortrait框架下audio驱动效果,同时也欢迎各位对LivePortrait有兴趣的大佬们来探索LivePortrait更多玩法,共建更好的生态。

我的分享到这里就结束了,最后,非常感谢我的mentor和我的团队带我参与了这个项目,同时也非常欢迎各位对技术有热情的同学加入快手,加入可灵大模型团队,得到历练和成长,祝大佬们秋招春招实习顺利🦆!

#快手校招#
全部评论
哈哈这个图好魔性
点赞 回复 分享
发布于 09-25 11:09 江苏
太牛了佬
点赞 回复 分享
发布于 09-25 11:12 湖南
慕了
点赞 回复 分享
发布于 09-25 11:19 广东
大佬
点赞 回复 分享
发布于 09-25 11:25 上海
9您吉祥
点赞 回复 分享
发布于 09-25 11:45 湖北
转正了吗你
点赞 回复 分享
发布于 09-25 12:31 陕西
大佬666
点赞 回复 分享
发布于 09-25 20:56 北京
太强了佬
点赞 回复 分享
发布于 09-26 10:40 北京
9✌️
点赞 回复 分享
发布于 09-26 19:51 广东

相关推荐

09-24 16:38
苏州大学 Java
Asp1rin:你们的确很幸福,但是有一个小问题:谁问你了?我的意思是,谁在意?我告诉你,根本没人问你,在我们之中0人问了你,我把所有问你的人都请来 party 了,到场人数是0个人,誰问你了?WHO ASKED?谁问汝矣?誰があなたに聞きましたか?누가 물어봤어?我爬上了珠穆朗玛峰也没找到谁问你了,我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒,在找到谁问你之前我连癌症的解药都发明了出来,我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了
投递阿里云等公司10个岗位
点赞 评论 收藏
分享
41 37 评论
分享
牛客网
牛客企业服务