LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
Dynamiq是一个专为Agentic AI和大型语言模型应用设计的AI智能协同框架,旨在简化AI应用的开发过程,擅长协调检索增强型生成与大型语言模型代理,同时支持多种AI技术的集成,提供高效的任务调度和资源管理。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
ChatGPT是目前使用最广泛的两个语言大模型之一,具备先进的自然语言处理能力,能够进行对话生成、文本理解等多种任务。研究人员观察到其模型性能随着时间的推移而变差,因此持续监测模型性能变化显得尤为重要。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
Deita旨在为大型语言模型(LLM)的指令微调提供自动数据选择工具和高质量的对齐数据集,Deita模型能通过比其他SOTA LLM少10倍的指令微调数据进行训练,达到与它们相媲美的性能。
一个Python包,用于存储、检索和动态创建GPT模型的提示。旨在简化管理大型语言模型的过程,使在生产环境中改进语言模型变得更加简单。
用Go语言编写的云原生AI网关,作为OpenAI的代理服务,可以创建具有速率限制、费用限制和生存时间限制的API密钥,实现细粒度的访问控制,支持多个大型语言模型,并简化LLM(Large Language Model)的运维操作。