OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
Open-LLM-Leaderboard是一个用于追踪各种大型语言模型(LLMs)在开放式问题上的表现的基准测试平台,旨在反映模型的真实能力,并通过开放社区促进共同进步。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
spelltest 是一个专为语言模型设计的测试工具,能够自动生成测试用例,评估模型性能,并提供详细的测试报告。它支持多种语言模型,用户可以根据需要定制测试参数,以便更好地适应不同的测试场景。
OpenFactCheck是一个开源的事实核查演示,专为大型语言模型(LLMs)设计,旨在整合各种事实核查工具,提供全面的事实核查流程。该项目支持多种核查工具的整合,使得用户能够高效地进行事实核查,并且由于其开源特性,开发者可以根据需求进行扩展和定制。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
在本地计算机上微调 LLAMA-v2(或任何其他 LLM)的最简单方法,提供用户友好的界面和高效的训练过程,支持多种语言模型,方便用户上传数据并进行微调。
ChatOrDie 是一个可以匿名比较多种顶尖AI模型的平台,包括 ChatGPT-4o、Gemini 1.5、Anthropic、Claude、Cohere、Mistral 等。用户可以并排比较不同模型的响应,快速识别单一AI的偏见、幻觉和错误,从而揭示真相,帮助做出明智的决策。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
Alle-AI是一个一体化的AI平台,让用户可以同时使用不同的最先进的生成AI模型,如ChatGPT、Bard、Claude、DALL-E 2、Stable Diffusion等,提供了友好的用户界面以有效地利用这些AI模型。
深度求索发布的开源代码大模型,33B版的性能显着优于现有的开源代码LLM。该项目包含多个规模的代码语言模型,从10亿到330亿标记不等,经过预训练,使用16,000标记的窗口大小和额外的填空任务,支持项目级别的代码补全和填充,在多种编程语言和各种基准测试中取得最先进性能。
Galactica是一个提供用户友好界面的机器学习模型互动网站,用户可以输入数据或使用平台提供的示例数据,实验不同参数并观察模型的输出或预测。
基于LLM的系统,可帮助处理数据相关任务,连接不同领域和用户偏好的数据源,能自主管理、处理、分析、预测和可视化数据
ODRL是一个针对非动态强化学习的基准测试平台,旨在评估强化学习算法在不同环境下的表现。通过建立标准测试环境,研究人员可以有效地比较和分析不同的强化学习算法的性能。
Litellm是一个Python SDK/Proxy Server,旨在简化与多种大语言模型API的交互,支持使用OpenAI格式调用100多个LLM API,提供统一的输入输出格式,易于集成和使用。
Bias-Bench是一个实证调查,旨在评估针对预训练语言模型的去偏见技术的有效性。它通过比较不同的去偏见方法,帮助研究人员理解这些技术在模型训练中的作用。该项目为研究人员提供了一个标准化的平台,以便对去偏见技术进行基准测试和性能评估。