税友集团一面
上来一道 easy 题
介绍项目
有个很值得探讨的问题,如何评估一个模型评分可不可 靠
 我的做法是生成的文本送给 gpt4去评分,

但是面试官说怎么证明 gpt4就是对的,他分享了下他的思路,应该让人类先对这样的回复进行评分,给定一个标准 然后再给看gpt 的打分是否和人类一致

我反问那如果人类的打分水平参差不齐呢

“这样的话 就规定一群人投票 表决什么样的评分是好的”

我说 那这样的话 不是很消耗人力成本

“但是你只需要标定一次 如果结果和预期符合,就说明这个模型可信”

我说 那如果换一个场景,这就要重新再做一次

“理论上每个场景都要这样做”

我说 那如果假设打分的人类服从高斯分布 中间的人肯定占的分布比较多 ,假设 gpt4是最右边高质量的分布,怎么能证明中间分布的人的打分,就一定比 gpt4好呢

“如果是这样 就需要分别针对什么样的人群 去设置一个打分 如果你想卖给中间人群, 就找一个中间的人群的水平打分”

大模型是不是真的能够理解人类的指令 🤔
全部评论
佬 是线下手撕吗
点赞 回复 分享
发布于 10-14 12:52 浙江

相关推荐

2 2 评论
分享
牛客网
牛客企业服务