DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
Math-Verify是一个强大的数学表达式评估系统,专为评估大型语言模型在数学任务中的输出而设计。它能更准确地评估模型的表现,避免因格式或解析问题导致的误判。
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
Prompt2Model 是一个从自然语言指令生成可部署模型的工具,旨在帮助系统构建者通过自然语言描述任务并提供示例来创建自然语言处理系统。
医疗大语言模型综合评测框架,特点包括大规模综合性能评测、深入细分的多维度场景评估、创新性的开放式评估指标和自动化评估模型
rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎,提供高性能、低成本和用户友好的推理服务,帮助客户和开发人员定制适合其业务的推理服务,从而促进业务增长
社会科学研究中的大型语言模型(LLM)应用精选,汇集了评估、对齐、工具增强等方面的优秀论文,帮助研究人员更好地理解和利用LLM
CompressGPT 是一个提示压缩器,可以为大多数基于 LangChain 工具的提示减少约70% 的Token,只需更改一行代码,帮助用户在文本生成和处理时大幅降低成本和提高效率。