税友集团一面
上来一道 easy 题
介绍项目
有个很值得探讨的问题,如何评估一个模型评分可不可 靠
我的做法是生成的文本送给 gpt4去评分,
但是面试官说怎么证明 gpt4就是对的,他分享了下他的思路,应该让人类先对这样的回复进行评分,给定一个标准 然后再给看gpt 的打分是否和人类一致
我反问那如果人类的打分水平参差不齐呢
“这样的话 就规定一群人投票 表决什么样的评分是好的”
我说 那这样的话 不是很消耗人力成本
“但是你只需要标定一次 如果结果和预期符合,就说明这个模型可信”
我说 那如果换一个场景,这就要重新再做一次
“理论上每个场景都要这样做”
我说 那如果假设打分的人类服从高斯分布 中间的人肯定占的分布比较多 ,假设 gpt4是最右边高质量的分布,怎么能证明中间分布的人的打分,就一定比 gpt4好呢
“如果是这样 就需要分别针对什么样的人群 去设置一个打分 如果你想卖给中间人群, 就找一个中间的人群的水平打分”
大模型是不是真的能够理解人类的指令 🤔
上来一道 easy 题
介绍项目
有个很值得探讨的问题,如何评估一个模型评分可不可 靠
我的做法是生成的文本送给 gpt4去评分,
但是面试官说怎么证明 gpt4就是对的,他分享了下他的思路,应该让人类先对这样的回复进行评分,给定一个标准 然后再给看gpt 的打分是否和人类一致
我反问那如果人类的打分水平参差不齐呢
“这样的话 就规定一群人投票 表决什么样的评分是好的”
我说 那这样的话 不是很消耗人力成本
“但是你只需要标定一次 如果结果和预期符合,就说明这个模型可信”
我说 那如果换一个场景,这就要重新再做一次
“理论上每个场景都要这样做”
我说 那如果假设打分的人类服从高斯分布 中间的人肯定占的分布比较多 ,假设 gpt4是最右边高质量的分布,怎么能证明中间分布的人的打分,就一定比 gpt4好呢
“如果是这样 就需要分别针对什么样的人群 去设置一个打分 如果你想卖给中间人群, 就找一个中间的人群的水平打分”
大模型是不是真的能够理解人类的指令 🤔
全部评论
佬 是线下手撕吗
相关推荐
点赞 评论 收藏
分享