一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
LLMArena是一个易于使用的工具,可以帮助用户并排比较多个大型语言模型(LLM),并美观地分享这些比较。用户可以选择2到10个LLM进行对比,生成直观的比较结果。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
这是一个精心策划的代码相关语言模型的集合,旨在为研究提供最佳选择。该项目由领域内的专家策划,确保了资源的质量,并定期更新以反映最新进展,包含适用于不同编码任务的多种模型。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
StructuredRAG是一个用于评估大型语言模型(LLM)遵循响应格式指令能力的六个任务基准,旨在研究不同提示策略对模型性能的影响,并提供复杂任务的性能评估。该项目还包括开源实验代码和结果,方便研究人员进行进一步探索。
Non finito是一个专注于多模态模型评估的工具,旨在为用户提供简单易用的平台,以便比较不同模型并公开分享评估结果。与大多数只关注语言模型的工具不同,Non finito强调多模态模型的重要性,确保每个人都能轻松进行模型评估。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
PromptStacks是一个社区驱动的平台,用户可以分享和发现生成式AI的技巧、窍门和资源,旨在帮助用户在AI领域保持领先。提供免费审核的提示和全面的课程,用户可以参与讨论、分享提示并获得反馈。
Apollo是一个多语言医学模型、数据集、基准和代码的开源项目,旨在为英语、中文、法语、印地语、西班牙语和阿拉伯语提供医学领域的自然语言处理能力。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
xCodeEval是一个大规模多语言多任务基准,用于评估代码理解、生成、翻译和检索的能力,旨在为研究和开发提供支持。
TensorZero是一个开源基础设施,旨在支持生产级、可扩展和复杂的大型语言模型(LLM)系统。它集成了推理、可观测性、优化和实验功能,支持多步骤LLM系统,并通过ClickHouse数据仓库实现实时、可扩展且开发者友好的分析。
RLAIF通过人工智能反馈扩展人类反馈的强化学习,表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型