传统cv想做多模态
目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
秋招?
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
相关推荐

点赞 评论 收藏
分享