P2L是一个基于AI模型的竞技场系统,通过用户输入的提示生成专属排行榜,并自动选择表现最强的模型进行回复。它结合了AI路由器功能,能够根据问题将请求转发给最适合的大模型,从而提高回答的准确性和效率。P2L还支持查看模型在特定领域的表现和不擅长的领域,帮助用户优化模型性能。
LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具,通过发布新问题和基于最新数据集设置评测,确保基准测试的无污染性。它包含18个任务,分为6个类别,初始发布960个问题,任务全面多样化。
CLEVR数据集生成工具用于生成视觉推理任务的合成数据集,支持用户自定义场景参数,促进AI的视觉理解研究,且包含评估模型性能的工具。
ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具,旨在解决复杂场景下的函数调用评估难题,帮助开发者优化模型性能。
Confident AI是一个综合性的LLM评估平台,提供14种以上的指标来运行LLM实验,管理数据集,监控并整合人类反馈,以自动改进LLM应用。它与DeepEval协作,支持任何用例。
在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
MBZUAI Bactrian-X是一个多语言可复制的指令遵循模型,使用了3.4M条指令从52种语言训练而成,提供52种单语言模型和1种多语言模型。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
一种计算效率高的多模态混合专家模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。
关于如何有效蒸馏大型语言模型的最佳实践实用指南,提供了一系列的最佳实践,帮助工程师和机器学习从业者在生产应用中更高效地蒸馏和使用语言模型。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
HRS-Bench 是一个全面、可靠且可扩展的基准,专为评估文本到图像模型而设计。它提供了多种性能指标,确保在不同模型规模下的可扩展性和可靠性。
LoRA inspector是一个专为Stable Diffusion设计的工具,旨在可视化和评估Low-Rank Adaptation(LoRA)模型的性能。它提供了用户友好的界面,支持多种文件格式的导入和导出,方便用户快速比较不同模型的效果,帮助用户选择最佳的模型配置以提升生成效果。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
关于算法代码生成的数据集,具有更大规模、更高质量和更精细标签的特点,旨在提供一个更具挑战性的训练数据集和评估基准,用于代码生成模型领域
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
该项目旨在对GPT-4-128K进行压力测试,通过简单的检索操作在不同的上下文长度下评估其准确性,适用于多种文档格式和内容。
RestGPT 是基于大型语言模型的自主代理的代码实现,通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来,解决与规划、API 调用和响应解析相关的挑战。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。
Aviary是一个基于Gymnasium框架的语言模型Agent训练平台,专注于构建性任务,提供了灵活的训练环境和多种模型集成,旨在满足研究和应用中的多样化需求。
旨在探索一种新的实验性模型训练流程,以训练高性能的特定任务模型,将训练过程的复杂性抽象化,使从想法到性能优越的完全训练模型的过程尽可能简单。用户只需输入任务描述,系统将从头开始生成数据集,将其解析为正确格式,并微调LLaMA 2模型。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型