正在连载中的现代言情《新的解题思路》,深受读者们的喜欢,主要人物有强倡翌陆俊佚,故事精彩剧情为:较好7分以上,一般6分以上,差6分以下等。“隐式反馈”:通过用户行为分析,例如:对于模型的输出结果并不关心则视为负面结果...
首发:AINLPer微信公众号每日论文干货分享!
编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型LLM展现出了杰出的性能,并为我们提供了新的解题思路。
但在实际应用过程中,如何评估大型语言模型的输出质量对于我们来说也至关重要。
因为大模型的输出是概率性的–这意味着同样的Prompt产生的结果都有可能不同,大模型评估能够衡量模型输出的质量水平,能够确保用户的体验。
为此,今天给大家整理了一些LLMs输出结果的评估方法。
一、用户反馈评估的黄金标准GoldStandard是收集真实的用户反馈。
即如果想要深入了解应用程序的质量与实用性,最佳方法是收集真实用户的反馈。
除此之外,其它的评估方法都是从侧面反映出模型的质量水平。
收集用户反馈的具体策略可以有不同的形式,例如“显式反馈通过相关功能来收集用户反馈,例如对于模型的输出结果,如果觉得好就点个赞,如果觉得不好就点个差;亦或者对输出进行打分评级,特别好9分以上,好8分以上,较好7分以上,一般6分以上,差6分以下等。
“隐式反馈通过用户行为分析,例如对于模型的输出结果并不关心则视为负面结果,对于模型的输出结果停留的时间较长则视为正面结果等。
通过以上两种规则方式,随着越来越多的用户开始使用该模型应用程序,就会收集到很多用户关于该模型的使用数据,根据该数据来分析模型的输出效果,从而不断地改进模型效果。
但该方法也存在一定滞后性。
因为只有当模型上线对客且用户使用一段时间之后,这些数据才能够收集到。
为此,在模型应用上线对客之前我们还需要对其进行评估测试,这就需要下面的这几个方法。
二、人工评估上线对客之前,评估大模型应用输出水平的最佳选择是让标注人员在预部署阶段评估大模型应用的输出。
典型的评估方法是构建测试数据集,根据测试数据集进行模型评估。
让我们看一个简单的问…
小说《新的解题思路》试读结束,继续阅读请看下面!!!
《精品全集新的解题思路》资讯列表:
为您推荐