在实验室做的都是纯cv的检测识别之类的,计算资源也很少跑不了大模型。想去找多模态的实习,需要学习什么东西,有什么成果,准备到什么程度呢。最近的话,先把vit,swin,mae这些vision transformer的东西巩固了一下,然后找了一些博客,把从CLIP开始到VLMo到BEiT,这些多模态大模型预训练的东西看了看。下周准备找个下游任务,多模态检测比如GLIP,还有VQA之类的,跑跑代码。这个方向的多模态实习好找吗还是说大部分多模态大模型做的还是DALL E, SD那种生图的工作,可是GAN我都一点不懂,这个转起来感觉跨度太大了