FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
Model Royale是一个允许用户比较各种语言模型(LLMs)的平台,帮助用户识别最适合其特定需求的模型。用户可以在不同模型中输入相同的提示,并根据响应时间、token使用量和响应质量分析结果。
通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真实的人类偏好数据和可验证的正确性偏好数据。
对与LLM对齐技术进行全面综述,包括数据收集、训练方法和模型评估。
STLST是一个AI时尚审查应用,用户可以上传自己的照片,AI将对用户的时尚和配饰进行评分与评价。用户可以添加关于场合的备注,例如日期、婚礼等,以便AI根据上下文定制其评价。对于深入的评论,可以尝试困难模式。