FLASK是一个专注于基于技能集的细粒度评估工具,能够对大语言模型(LLM)进行全面分析和比较。它提供了评估模型在不同能力上的表现,并与最先进的开源LLM进行对比,帮助用户了解模型的优势和不足。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
一个用于端到端架构和大语言模型(LLM)的项目,旨在简化和优化开发过程。
Athina AI是一款旨在帮助开发者监控和评估其大语言模型(LLMs)应用程序的工具,专注于生产环境中的性能监控、故障检测以及提示管理。通过Athina,开发者可以实时跟踪LLMs的表现,及时发现并修复模型的幻觉问题,从而提升应用的可靠性和用户体验。
一款免费开源工具,旨在帮助用户快速验证大语言模型生成内容的准确性,类似于为事实准确性而生的Grammarly。该工具提供实时内容检查,支持多种语言,且界面友好,易于使用。
LOMO是复旦大学提出的新论文,旨在使用单台8片24G的RTX 3090对Llama 65B模型进行全参数微调。该项目通过优化训练效率和性能,为用户提供了兼容多种深度学习框架的解决方案,并附带详细的实验结果和分析,帮助用户更好地理解模型的表现。
MusicGen模型训练器,旨在简化MusicGen和Audiocraft模型的训练过程,提供用户友好的界面和强大的功能,帮助用户轻松进行音频模型的训练和评估。
glideprompt 是一个能够编写系统提示并在流行语言模型(如 Llama、Mistral、OpenAI、Claude、Gemini)上测试的工具,帮助用户更好地决定哪个语言模型最适合他们的任务。用户只需输入任务,即可获得针对语言模型的系统级提示。该工具比较不同语言模型的性能,以辅助用户为特定任务选择最佳模型。
本项目旨在利用合成数据,通过大语言模型从非结构化文档生成查询和相关文档,从而创建合成数据集,以微调开源嵌入模型。这样可以显著提高信息检索的准确性和效率,同时增强模型在特定领域的理解能力。
LLM Comparator是一个交互式数据可视化工具,旨在并排评估和分析大型语言模型的响应,由PAIR团队开发。
HammerLLM是一个具有1.4B参数的语言模型,提供了简洁高效的训练代码库,同时完全开源了模型权重、环境、代码库和超参数,支持中英文的生成和理解,具有高效的训练和推理能力,适合多种自然语言处理任务。
一个研究完全规避开源LLM对齐的对抗性后缀的项目,旨在探索如何识别和利用对抗性后缀,以评估和提高开源LLM模型的鲁棒性和安全性。该项目适用于多种流行的开源模型,包括ChatGPT、Claude、Bard和LLaMA-2,并提供了相关研究文献链接,以便深入了解当前的研究动态。
Litellm是一个Python SDK/Proxy Server,旨在简化与多种大语言模型API的交互,支持使用OpenAI格式调用100多个LLM API,提供统一的输入输出格式,易于集成和使用。