LLM-Agent-Benchmark-List是一个为人工智能领域中大型语言模型(LLMs)和Agent驱动模型提供系统化评估资源的工具,旨在推动向通用人工智能(AGI)的探索。通过提供基准测试和比较数据,帮助研究者和开发者更好地理解和改进这些模型的性能。
SWELancer-Benchmark是一个专为评估大型语言模型(LLMs)在复杂编程任务中表现而设计的项目。它提供真实世界的软件工程任务数据集,旨在挑战和测试LLMs在自由职业软件工程中的实际应用能力。该项目为研究和开发提供了完整的代码和工具支持,助力研究人员和开发者深入探索LLMs在真实环境中的表现。
Awesome-LLM-Judges是一个一站式LLM Judges工具大集合,旨在为AI模型的自动评估提供全面解决方案。该项目汇集了30+前沿LLM Judges研究论文,涵盖多种评估场景,如辩论、安全、幻觉检测等。此外,它还提供了开源库Verdict,方便用户快速实现论文中的方法。
LangFair是一个Python库,旨在评估大型语言模型(LLM)在具体用例中的偏见和公平性。它提供超过20种评估指标,支持多种LLM用例,并配备自动化评估工具,简化了评估流程。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
集合了基于大型语言模型(LLM)评估方法的综合调研项目,旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。
提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
llm-numbers是一个每个LLM开发人员都应该了解的工具,提供关键的统计数据和指标,帮助开发者深入理解模型性能。它支持多种语言模型的评估,并易于集成到现有的机器学习工作流中。此外,llm-numbers还提供可视化工具,以便展示模型数据,让开发者更直观地分析结果。
Langtail是一款创新的AI工具,旨在简化AI应用的开发和部署,尤其是大型语言模型(LLM)驱动的应用。它通过提供强大的调试、测试和监控功能,解决了应用开发中常见的不可预测行为问题,能够无缝集成到AI开发工作流中,提高生产力和效率,无论是优化AI提示还是将其部署为API端点。
这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型,支持在Apple M2 Ultra上进行高效的模型训练和推理,提供简化的模型权重下载和加载流程,同时兼容Python环境。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
ml-calibration是一个用于测量校准和绘制可靠性图表的工具包,提供了可视化方法来评估模型的校准程度,并生成可靠性图表以帮助分析模型的可靠性。该工具包支持多种校准方法的比较,易于集成到现有的机器学习工作流中。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准,提供多种评测任务,支持各种模型和算法的评估,易于扩展和定制,旨在推动中文NLP研究的发展。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型