PROMETHEUS是一个在语言模型中引入细粒度评估能力的完全开源LLM,能够在配备适当的参考资料时展现出与专有模型相媲美的评估能力。
FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具,旨在提供更准确的评估结果,揭示模型的强项和弱点,并指导语言模型的进一步发展。
EMMA是一个增强型多模态推理基准测试,用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力,帮助研究者发现模型在复杂多模态任务中的局限性。
Deita旨在为大型语言模型(LLM)的指令微调提供自动数据选择工具和高质量的对齐数据集,Deita模型能通过比其他SOTA LLM少10倍的指令微调数据进行训练,达到与它们相媲美的性能。
liteLLM是一个开源库,旨在简化LLM(大语言模型)的完成和嵌入调用。它提供了一个方便易用的接口,使得调用不同的LLM模型变得更加简单。用户只需导入'litellm'库并设置必要的环境变量(如OPENAI_API_KEY和COHERE_API_KEY),即可创建Python函数并使用liteLLM进行LLM完成调用。此外,liteLLM还提供了一个演示平台,用户可以在其中编写Python代码并查看输出,从而比较不同的LLM模型。
该项目探讨了语言模型中的事实错误,并提出了一种基于约束满足的视角,旨在识别和分析语言模型在生成文本时可能出现的错误,帮助改进模型的准确性和可靠性。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
Vicuna是一个由Vicuna团队开发的开源聊天机器人,经过用户分享的对话微调,表现优于大多数模型。
OpenAI改进了大规模训练稀疏自动编码器的方法,以提取可解释特征并理解语言模型的神经活动。