汀丶人工智能

02-27 14:13 阿里巴巴_算法工程师

关注

AI与人类联手，智能排序人类决策：RLHF标注工具打造协同

AI与人类联手，智能排序人类决策：RLHF标注工具打造协同标注新纪元，重塑AI训练体验

在大模型训练的 RLHF 阶段，需要人工对模型生成的多份数据进行标注排序，然而目前缺乏开源可用的 RLHF 标注平台。

RLHF 标注工具是一个简单易用的，可以在大模型进行 RLHF（基于人类反馈的强化学习）标注排序的工具，旨在帮助用户在友好的图形界面中对生成式模型生成的答案进行排序标注。

工具特点
- RLHF助力者：强调工具在大模型训练中的重要性，特别是在RLHF阶段。
- 智慧融合引擎：展示AI与人类智慧结合的创新点。
- 生成式模型助手：突出工具在生成式模型训练流程中的支持作用。
- 排序标注利器：直接描述工具的核心功能，即帮助用户对答案进行排序和标注。
- 友好界面体验：强调工具用户界面的友好性和易用性。
- 开源创新平台：突出工具的开源特性，鼓励用户参与和贡献。
功能点
- 提供界面展示当前的查询问题和历史对话
- 支持为生成的答案选择排名
- 可以自定义回答个数 K，默认为 4
- 自动检测和提示排名冲突
- 将标注的排序结果追加保存到数据集文件中
- 提供数据集页面以查看已标注的数据
更多功能点
- 实现 RLAIF ，基于 API 进行自动标注
- 支持拖动排序
效果展示：

1. 快速开始

安装依赖
- Python 3.x
- 安装依赖包：pip install -r requirements.txt
使用说明
1. 准备数据集文件：将包含查询问题、历史对话和生成的答案的数据集文件准备为 JSON 格式，格式参见 input_file.json。对于 RLHF 数据的生成，直接对同一份模型运行 K 次即可。由于大模型的随机性，每次生成的答案都会不同。
2. 运行应用：执行 bash run.sh 命令启动应用。
3. 标注排序：在标注页面，依次为每个查询问题的生成答案选择排名，并点击“存储当前排序”按钮保存标注结果。
4. 查看数据集：在数据集页面，可以查看已标注的数据集，包括查询问题、历史对话和生成的答案的排序结果。
配置应用支持一些配置选项，可在 app.py 文件中进行修改：
- MODEL_CONFIG：模型配置，包括模型名称、设备、数据集文件路径等。
- RANK_COLOR：排名颜色列表，用于在界面中显示不同排名的颜色。

2.示例数据集

您可以使用以下 JSON 数据集示例进行测试：

{
    "0": {
        "query": "非常感谢您的建议，我会尽量按照您的建议来做。谢谢！",
        "history": [],
        "response_0": "不客气，我很高兴能够帮助到您。如果您还有其他问题，随时可以向我咨询。祝您好运！",
        "response_1": "不客气，我很高兴能够帮助您。如果您还有其他问题，随时都可以向我咨询。祝您好运！",
        "response_2": "不客气，我很高兴能够帮助您。如果您有任何其他问题，随时都可以向我咨询。祝您好运！",
        "response_3": "不客气，我很高兴能够帮助到您。如果您还有其他问题，随时可以向我咨询。祝您好运！"
    },
    ...
}

******************************************

AI前沿技术文章被收录于专栏

AI前沿技术

全部评论

推荐最新楼层

11-21 13:08

蚌埠坦克学院 C++

服从性笔试吗，发这么多笔，现在还在发。

蟑螂恶霸zZ：傻 x 公司，发两次笔试，两次部门匹配挂，

投递金山WPS等公司10个岗位 >

点赞评论收藏

分享

11-22 00:42

广东工业大学 C++

爽啦，校招今天收到了三个offer！

不过，心里也有些小失落，因为有些面试结果并不理想。比如金山办公的C++开发工程师岗位，结果显示我与职位不匹配，虽然他们说会把我的简历放入人才库，但还是有点沮丧。还有其他公司也给了我类似的反馈，虽然感谢他们的关注，但我还是希望能找到更合适的机会。希望接下来的面试能有更好的结果！

offer小狗：转人工

牛客创作赏金赛

点赞评论收藏

分享

09-29 11:19

门头沟学院 Java

you can kill me，but you can't *******#拼多多##java##实习##算法#

逆流河上万仙退：只是给你个内推码

点赞评论收藏

分享

11-02 22:38

深圳技术大学 C++

哈哈美团牛🐂

勤奋努力的椰子这就开摆：美团骑手在美团工作没毛病

投递美团等公司10个岗位

点赞评论收藏

分享

11-19 17:10

武汉大学前端开发其它

每天上班郁闷，后悔拒绝掉的以前offer

每天上班郁闷，后悔拒绝掉的以前offer，超级后悔进去这家公司，每天都不开心，之前的那家看到还有招，但是人事没回复，怎么办，哎。选错公司了

如果再来一次，你还会选择这个工作吗？

点赞评论收藏

分享

点赞 1 评论

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

全站热榜

正在热议

# 25届秋招总结 #

300378次浏览 2658人参与

# 如果不工作真的会快乐吗 #

59167次浏览 516人参与

# 百度开奖 #

162165次浏览 972人参与

# 地方国企笔面经互助 #

3788次浏览 10人参与

# 美团求职进展汇总 #

1327208次浏览 12448人参与

# 选完offer后，你后悔学本专业吗 #

19875次浏览 143人参与

# 北方华创开奖 #

26519次浏览 285人参与

# 正在实习的你，几点下班 #

51827次浏览 389人参与

# 国央企薪资爆料 #

8278次浏览 67人参与

# 如何一边实习一边秋招 #

992060次浏览 12638人参与

# 提前批简历挂麻了怎么办 #

146412次浏览 1948人参与

# 学历or实习经历，哪个更重要 #

50973次浏览 402人参与

# 海康威视求职进展汇总 #

398770次浏览 3406人参与

# 米哈游求职进展汇总 #

175872次浏览 1458人参与

# 求职遇到的搞笑事件 #

70775次浏览 577人参与

# 投递实习岗位前的准备 #

1179135次浏览 18393人参与

# 面试体验感最好的是哪家？ #

85074次浏览 845人参与

# 实习生应该准时下班吗 #

167400次浏览 1159人参与

# 得物求职进展汇总 #

66218次浏览 682人参与

# 网申一定要掌握的小技巧 #

5326次浏览 53人参与

# 招聘要求与实际实习内容不符怎么办 #

10264次浏览 273人参与

# 0offer是寒冬太冷还是我太菜 #

898176次浏览 8012人参与

牛客网
牛客企业服务