2022-04-08 12:24 University of Bristol 前端工程师

关注

2022预计要火的视觉语言理解和生成：代码开源，官方 Demo 可玩

1-0

🍊 各位读者小伙伴、元宵节快乐
📆 最近更新：2022年2月11日
🍊 趣学深度学习、AI 前沿、技术专栏、敬请关注
🍊 本文为大家分享一项好玩的，预计2022会火的视觉语言理解和生成任务
🍊 AI 之路、道阻且长、感谢无数前辈巨佬的倾情奉献

📕 一键生成图像标注，视觉问答，官方 Demo 可玩

论文基础信息如下

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP：引导语言图像预训练，实现统一的视觉语言理解和生成
论文地址：https://arxiv.org/pdf/2201.12086.pdf
代码地址：https://github.com/salesforce/BLIP
试玩地址：https://huggingface.co/spaces/akhaliq/BLIP

📕 官方 Demo 试玩效果

视觉语言理解和生成、操作三部曲如下

上传心仪图像
点击下方的提交按钮
等待几秒，右侧即可生成对应的：图像内容描述

1-1

引导式：智能问答

1-3

不懂就问：我要是上传一张自己的图像，它会不会直接猜到我心里在想什么

1-4

论文中的一些官方示例，红色是问题，绿色是回答，人工智能 YYDS 了

1-2

📕 网络结构

多个编码器-解码器

2-1

模型架构

研究者将一个视觉 transformer 用作图像编码器，该编码器将输入图像分解为 patch，然后将这些 patch 编码为序列嵌入，并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法，使用 ViT 在计算上更友好，并且已被最近很多方法所采用。

为了预训练一个具备理解和生成能力的统一模型，研究者提出了多任务模型 MED（mixture of encoder-decoder），它可以执行以下三种功能的任意一种：

单峰编码器
基于图像的文本编码器
基于图像的文本解码器

预训练目标

研究者在预训练过程***同优化了三个目标，分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重（computational-heavier）的视觉 transformer，需要三个前向传播通过文本 transformer，其中激活不同的功能以计算以下 3 个损失，分别是：

图像文本对比损失（image-text contrastive loss, ITC），激活单峰编码器，旨在通过鼓励正图像文本对（而非负对）具有相似的表征来对齐视觉与文本 transformer 的特征空间；
图像文本匹配损失（image-text matching loss, ITM），激活基于图像的文本编码器，旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征；
语言建模损失（language modeling loss, LM），激活基于图像的文本解码器，旨在给定一张图像时生成文本描述。

为了在利用多任务学习的同时实现高效的预训练，文本编码器和解码器必须共享除自注意力（self-attention, SA）层之外的所有参数。具体地，编码器使用双向自注意力为当前输入 token 构建表征，同时解码器使用因果自注意力预测接下来的 token。

另外，嵌入层、交叉注意力（cross attention, CA）层和 FFN 在编码和解码任务之间功能类似，因此共享这些层可以提升训练效率并能从多任务学习中获益。

🍊 说到编码器、解码器，层共享、大家有兴趣可继续查阅我的这篇博文，希望能够帮助大家带来一些灵感
🍊【深度学习入门项目】给学妹换个风格，画风突变【❤️CVPR 2020 风格迁移之NICE-GAN❤️】
🍊 Nice -GAN环境搭建 ——模型训练有效教程——【一文读懂】

📕 实验：数据集指标PK

实验结果

研究者在 PyTorch 中实现模型，并在两个 16-GPU 节点上预训练模型。其中，图像 transformer 源于在 ImageNet 上预训练的 ViT，文本 transformer 源于 BERT_base。

主流数据集：COCO 、 Flickr
超分重建数据集 DIV2K & Flickr2K 下载地址【有效分享】

2-2

这个论文的工作感觉还是相当有意思，大家有兴趣，可下载原文进行详细研究，传送门地址如下

论文地址：https://arxiv.org/pdf/2201.12086.pdf
代码地址：https://github.com/salesforce/BLIP
试玩地址：https://huggingface.co/spaces/akhaliq/BLIP

📙 博主 AI 领域八大干货专栏、诚不我欺

🍊 计算机视觉： Yolo专栏、一文读懂
🍊 计算机视觉：图像风格转换--论文--代码测试
🍊 计算机视觉：图像修复-代码环境搭建-知识总结
🍊 计算机视觉：超分重建-代码环境搭建-知识总结
🍊 深度学习：环境搭建，一文读懂
🍊 深度学习：趣学深度学习
🍊 落地部署应用：模型部署之转换-加速-封装
🍊 CV 和语音数据集：数据集整理

📙 预祝各位前途似锦、可摘星辰

🎉 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️

❤️ 过去的每一天、想必你也都有努力、祝你披荆斩棘、未来可期

🍊 深度学习模型训练推理——基础环境搭建推荐博文查阅顺序【基础安装—认真帮大家整理了】
🍊 点赞 👍 收藏 ⭐留言 📝 都是博主坚持写作、更新高质量博文的最大动力！

9-9

全部评论

推荐最新楼层

11-17 10:40

中国人民大学行政经理

双选会，一个没投

感觉那些企业来这里完全是为了给学校面子，要么工资低得可怜，要么招人寥寥无几。经济专业真是让人心累。我手上准备了10份彩印简历，还特意做好了序号标记，结果到现场发现一个序号都对不上，让我无语。这样的经历，真的很无赖。

牛客创作赏金赛

点赞评论收藏

分享

今天 00:56

天津大学汽车设计

2024史上最难毕业季

今年有1179万新毕业生涌入市场，竞争可谓异常激烈，大学生的平均就业率仅有55%。我时常感到焦虑，尤其是看到网上的数据：4667万的求职者，却只有350万的付费招聘客户。每一个offer都像是稀世珍宝，我还在努力争取中。没拿到offer的朋友们，别气馁，一定能找到寻找属于我们的机会！

牛客创作赏金赛

点赞评论收藏

分享

10-25 14:31

长沙民政职业技术学院前端工程师

一个offer都没有麻了啊

求大佬们给点建议，孩子听劝😭

Bug压路：老哥看得出来你是想多展示一些项目，但好像一般最多两个就够了😂页数一般一页，多的也就2页；这些项目应该是比较同质化的，和评论区其他大佬一样，我也觉得应该展示一些最拿手的（质量>数量）😁😁😁专业技能部分也可以稍微精简一些

点赞评论收藏

分享

11-07 13:31

怀化学院 Java

终于收到offer了

勇敢牛牛不怕难：又疯一个

点赞评论收藏

分享

11-20 12:10

上海电力大学项目助理

腾讯入职体验

这里工作强度轻松，项目组基本上不要求周六加班，周末也很少有人打扰。办公楼的位置不错，靠着江，白天和晚上的风景都超美。下楼就能找到咖啡店、超市和商场，生活便利。再说说食堂，真的还挺不错的！有韩式、中式和简餐，少油少盐，吃得还算健康

腾讯公司福利 448人发布

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 晒一晒我的offer #

9704170次浏览 104819人参与

# 机械只有读研才有出路吗？ #

7888次浏览 103人参与

# 北方华创开奖 #

21014次浏览 244人参与

# 地方国企笔面经互助 #

1895次浏览 6人参与

# 滴滴求职进展汇总 #

78753次浏览 688人参与

# 考研失败就一定是坏事吗？ #

36256次浏览 355人参与

# 机械人，签完三方你在忙什么？ #

22956次浏览 119人参与

# 总结:哪家公司面试体验感最差 #

23430次浏览 115人参与

# 机械应届生薪资要多少才合适？ #

11748次浏览 55人参与

# 学历or实习经历，哪个更重要 #

39039次浏览 280人参与

# 选完offer后，你后悔学本专业吗 #

6544次浏览 43人参与

# 查收我的offer竞争力报告 #

13287次浏览 191人参与

# 机械人怎么评价今年的比亚迪 #

40863次浏览 141人参与

# 应届生被毁约被毁意向了怎么办 #

24038次浏览 230人参与

# 00后45度躺现状 #

33466次浏览 294人参与

# 没有合适的工作，你会先找个干着，还是考公考研 #

35289次浏览 392人参与

# 秋招OC许愿 #

223997次浏览 1853人参与

# 如果能重来，就业or读研你选哪个？ #

45253次浏览 333人参与

# 大疆求职进展汇总 #

402618次浏览 2869人参与

# 实习，投递多份简历没人回复怎么办 #

2381430次浏览 34165人参与

# 双非能在秋招上岸吗？ #

98913次浏览 768人参与

牛客网
牛客企业服务