发面经攒人品

组里做特定领域的文生图模型,会涉及到语言模型的微调和出图底模训练,八股拷问不多,重点记录一下值得思考的问题。
1.DALLE和SD技术路线的不同? 自回归/diffusion
2.SD的lora微调原理和位置?除了注意力投影还有Unet的卷积层。lora还有loCon/loha/lokr。
3.SDXL的双文本特征怎么处理?SD3不同文本端具有的不同token量怎么处理?CLIP-77/T5-512
4.除了交叉注意力的方式还有哪些文本信息注入? DiT涉及到的in-context/cross attention/adaLN
5.为什么生成模型选用Unet?一是保留了相同分辨率上的信息,二是跳跃连接允许存在bottleneck的情况下保留信息(VAE生成会因为压缩造成部分消息丢失)
6.长文本输入怎么处理?通过切分成77(CLIP)长度分别抽取特征后拼接再投影。那0号和77号相同的位置编码怎么解决?讲了BERT给不同句子设置了区分的embedding,涉及到对于语言模型的微调。如果是在训练UNet时(冻结语言模型)该怎么处理? 以插值的方式去构造新的位置编码,但效果不好。还有一些其他的方法,需要进一步了解。

还有一些不了解的点:
1.解耦(adapter)和非解耦(?)方式对模型微调的影响?
2.有没有了解过controlnet的condition的预处理的pipeline?

工作重点:长文本处理,文本图像的高度一致性,生成图像的精确性和美观度
全部评论
“那0号和77号相同的位置编码怎么解决?” 这里是指什么呢
点赞 回复 分享
发布于 05-23 16:26 江苏

相关推荐

联通 技术人员 总包不低于12
点赞 评论 收藏
分享
2 15 评论
分享
牛客网
牛客企业服务