如何对大模型的业务进行测试?
昨天面试遇到了这个问题,对这个有些疑问
我的回答是:
1.提供不同的提示词,查看返回结果的质量,与正确答案的差异
2.查看返回的响应速度
3.提供一些涉及隐私安全的、不适合的提示词,查看是否会被拒绝回答
面试官不是很满意,说我这些偏向于应用层面
刚刚查阅了一下:
可以数据收集、数据预处理、模型训练、模型验证、模型评估这样的普适方法
评价指标有F1(精确率和召回率的调和平均值)、RougeL(生成摘要和基准摘要的最长公共子序列)、sacreBLEU(生成文本与参考文本在不同长度的N元组的匹配情况)
有兄弟做实际的相关业务吗,这个问题应该怎么回答呢?求解
6.6号更新:
1.使用一些通用的数据集对模型效果进行评测(GLUE、superGLUE)
2.使用不同的任务进行评测,数学题,编程题,阅读理解,自然知识,科学知识,文本生成,翻译等
3.鲁棒性测试,提示词中间存在拼写错误 ,错别字,模糊提示等
4.不同的硬件资源对响应进行测试(类似对接口进行性能测试)
5.模拟实际用户使用场景进行提示,并收集用户反馈
#牛客解忧铺##牛客在线求职答疑中心##我的实习求职记录##帮帮团#