商汤科技 多模态Omni方向实习生
商汤科技研究院多模态大模型组招聘: 多模态Omni方向实习生
实习地点:北京/上海
工作职责:
探索多模态Omni模型的研发,参与视频、音频、文本等多模态融合模型的开发与优化,打造具备流式交互能力的智能视频对话系统。让AI不仅能“听懂”用户,还能“看懂”世界,推动AI在视频、音频、文本等多模态领域的创新应用,打造更智能、更自然的交互体验。负责多模态融合模型的训练,构建高质量多轮对话和拟人数据的管线。设计端到端的音视频对话模型,提升音频生成的质量,实现高保真可控的音频生成,让AI的声音更富有情感。
任职要求:
- 在NLP,CV等领域有相关研究或项经验,对大模型相关技术有深入了解;
- 对前沿研究方向有敏锐见解,对训练系统有一定了解,对数据与模型结构有充分认识;
- 具有优秀的分析问题和解决问题的能力,对解决具有挑战性的问题充满激情;
- 有较强的代码能力或有较强的研究能力(论文成果、代码竞赛、学术竞赛等)。
投递方式
投递邮箱:tongwenwen1@sensetime.com
邮箱主题:多模态Omni方向实习生 + {实习地点} + 姓名