双非硬上算法:我是双非本,双非硕,已经拿到上市公司的算法offer了
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
大大云:finetune使模型拥有最基本的instruct follow能力,并且rlhf的损失中有一个KL散度限制,避免离finetune激活偏差太大,没有sft可能直接奖励黑客了,同时强化学习本身的稳定性也不太够
0 点赞 评论 收藏
分享
06-17 08:38
字节跳动_算法(实习员工) 秋招别折磨我了求求你:我自己是找了个知识星球加的,要钱就是了。小红书好像有那种打广告发面经的但不知道要不要钱,知乎也可以搜,搜索方向就是预训练,cpt,sft,rlhf,分布式训练,推理部署,rag,agent之类
0 点赞 评论 收藏
分享
关注他的用户也关注了: