传统cv想做多模态

目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
7 回复 分享
发布于 2024-08-27 08:57 广东
秋招?
点赞 回复 分享
发布于 2024-08-25 11:07 北京
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
点赞 回复 分享
发布于 2024-08-28 10:09 浙江

相关推荐

评论
1
11
分享

创作者周榜

更多
牛客网
牛客企业服务