评估模型或提示的好坏一直是个棘手的问题。但是,我的朋友 Sam 和我已经开发了一个使用新的 @OpenAI evals 库在浏览器中运行自行评估的工具!

只需将您的样本 csv 文件拖入其中,然后点击“运行”🏃 相关链接:https://twitter.com/thejessezhang/status/1641820143457300480