阿里大模型通义千问万相工程团队秋招

团队介绍:
达摩院系统AI实验室,致力于阿里大模型相关的系统化工程工作;魔搭,灵积,通义千问,每一款阿里出品的大模型产品都有我们团队的印记;而AI数据引擎团队,主要解决大模型训练过程中的数据生产问题。训练数据在大模型训练中是至关重要的,它是模型学习和泛化的基础;高质量、多样性和代表性的训练数据可以帮助模型获得更好的性能和更广泛的应用能力。我们团队的工作包含了海量预训练数据的采集、预处理,SFT/RLHF等模型alignment所需的精细数据的生产(标注、评测),训练数据集的体系化管理、索引、使用、增效,线上训练数据回流解决方案,等一系列大模型训练和部署过程中会遇到的数据生命周期相关问题;在这里你会深度发掘模型和数据之间的联系,迅速得接入大模型训练数据生产背后的魔鬼细节,将对大模型的相关认知持续推到新高度。

职位描述:
参与AI数据平台的研发工作。
1. 海量分布式采集系统:高并发系统的吞吐优化、线性扩容,降本增效,对于网站安全机制的深入理解。
2. 数据标注系统:高可用的API系统的开发和维护,二次开发体系的建设(AWS SageMaker GroundTruth),特定标注模版的开发和算法辅助优化(如视频自动跟踪,图片自动分割)。
3. 数据处理系统:高质量训练数据集的流程构建,百亿级向量去重算法的研发,向量提取模型的研发和部署,高质量数据集的构建(对标RedPands,Lainon5B,DataComp)。
4. 数据管理系统:多模态数据的存储体系构建,多模态检索系统的研发和优化,Python SDK的研发,高质量数据集的构建。

联系方式:
感兴趣的同学请私信我,或发送简历到邮箱
feiwu.yfw@alibaba-inc.com #阿里巴巴内推#  #秋招#  #秋招#  #阿里巴巴内推#  #大模型#
全部评论
您好,请问一下通义是算在哪个部门下呀?阿里云还是达摩院呀
点赞 回复 分享
发布于 2023-10-24 18:42 湖北
能帮忙查询进度不,都看不到进度
点赞 回复 分享
发布于 2023-09-07 16:31 上海

相关推荐

1. 核心影响因素- 任务类型:- 简单任务(如文本分类):可能需数百到数千条标注数据。- 复杂任务(如对话生成、阅读理解):通常需数万条甚至更多数据,尤其需多样性和高质量样本。- 模型规模:- 大参数量模型(如GPT-3、PaLM)可能需更多数据防止过拟合,但通过策略(如参数冻结)可降低需求。- 较小模型(如BERT-base)可能在较少数据下表现良好。核心是数据质量:- 高质量、标注精准、多样化的数据可显著减少需求量。- 低质量数据可能导致模型性能瓶颈,需额外清洗或增补。领域差异:- 若预训练数据与目标领域差异大(如通用→医疗),需更多领域数据调整模型分布。- 训练策略:- 正则化技术(早停、Dropout、数据增强)可缓解小数据过拟合。- 迁移学习技巧(如Adapter、LoRA)可减少可训练参数量,降低数据需求。经验可参考范围- 常规任务(分类/标注):- 小模型(如BERT):1k-10k样本。- 大模型(如GPT-3.5):可能需10k-50k样本(结合领域适配策略)。- 生成任务(对话/摘要):- 通常需5k-100k+样本,依赖生成质量要求。- 领域适配:- 若领域差异大,需额外增加20%-50%数据量。产品经理的权衡维度- 业务目标:- 若需快速验证MVP,可接受小数据+低精度(如数百样本),后续迭代优化。- 若追求高精度(如医疗、金融场景),需预留足够标注预算。- 资源限制:- 标注成本:若数据获取昂贵,需优先优化数据质量或采用主动学习。- 算力与时间:大数据量需更高训练成本,需权衡ROI。- 替代方案:- Prompt Engineering:用少量样本设计提示词,可能无需微调。- Few-shot Learning:结合模型原生能力减少数据依赖。 #牛客激励计划#  #聊聊我眼中的AI#   #数据人的面试交流地#  #AI了,我在打一种很新的工#  #面试被问期望薪资时该如何回答#  #面试题刺客退退退#  #大家都开始春招面试了吗#  #24届软开秋招面试经验大赏# #牛客AI配图神器#
点赞 评论 收藏
分享
评论
1
8
分享

创作者周榜

更多
牛客网
牛客企业服务