请问为啥说文本和图像的融合?为啥不是cross attetion,而是clip
点赞 2

相关推荐

牛客网
牛客企业服务