【小红书技术团队】REDtech来了!多模态话题即将开讲~
在现实世界中,人类通过综合运用视觉、听觉、触觉、嗅觉等多种感官,来接触和理解大千世界。我们通过不同感官获得的信息,就是天然地以"多模态"形式存在的。
从这个意义上说,人工智能的发展就是向人的智能靠近的过程。多模态学习是一个绕不开的发展方向。
多模态学习带来全新应用场景
在互联网信息爆发且形式愈加丰富的时代,图文及短视频内容在互联网内容中所占比例不断提高。单一模态,往往难以提供对图文、视频等信息的完整描述。与此同时,在应用领域对内容的理解贯穿了整个搜索、推荐系统。
如今的挑战
尽管多模态从上个世纪70年代诞生至今,经历了几十年的发展,但在当下的工业界多模态的落地依然面临着诸多挑战,以致于一些场景呈现“伪多模态”的应用状态,从而影响了用户体验——
● “语义鸿沟”依然存在;
● 如何掌握大量匹配的多模态数据;
● 多模态信息中的不确定性;
● 不同模态之间的精细对齐;
● 多模态预训练的有效架构等等。
大咖解读等你来听
4月20日19:00,由小红书技术团队出品的直播节目【REDtech 来了】第一期就将围绕多模态话题开讲。上半期小红书技术团队邀请到了来自上海交通大学电子信息与电气工程学院副教授、博导谢伟迪,北京航空航天大学教授、博导刘偲,上海科技大学信息学院副教授、博导高盛华就多模态内容理解的相关研究展开分享。
预计在4月27日举办的下半期直播将聚焦多模态理解与创作,中国科学院自动化所研究员赫然,浙江大学“百人计划”研究员、博导周晓巍,悉尼理工科技大学ReLER实验室讲师朱朝霖,将接棒带来学界对多模态的最新研究成果。
上述高校学者将分享“跨模态图像内容理解和视频生成”,“语言指导的视觉定位”,“多模态视觉内容生成”,“多模态检索、定位与生成的方法”,“便捷的三维数字化技术”,“自监督学习在多模态内容理解中的技术与应用”等议题,欢迎到直播间互动提问!
解锁小红书多模态密码
除此之外,小红书多模算法组负责人汤神也将以小红书的实践为例,重点介绍小红书在内容质量评价、多模态搜索与交易内容理解等领域对多模态技术的探索与研发应用。
作为国内独树一帜的内容社区,截至2021年10月,小红书月活跃用户数已经超过2亿。如何处理和理解如此大规模的UGC内容,进行更精准高效的分发,正是多模态技术最大的应用方向之一。
还可以看到,目前国内的互联网应用中,小红书的内容以图文笔记和短视频为主流,每天都会产生大规模的分享笔记,以及海量的用户即时行为。这给多模态人机交互留下了很大的想象空间。
这种生态中诞生了非常多的有价值、且极具有挑战的问题,涉及到视觉、NLP、音频、用户行为等多个模态信息的理解和综合利用。因此,小红书也是讨论如何更好定义多模态,和充分发挥多模态核心价值的绝佳实践场景。
对内容的多模态理解贯穿了小红书整个搜索、推荐与交易系统。目前小红书技术团队已经在短视频理解、内容质量评价、多模态检索、交易内容理解、三维数字化、智能创作等领域对多模态技术展开了研发应用。