SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
该论文评估了许多开源大语言模型在使用ChatGPT数据微调后的效果,认为这些模型虽然表面上看似提升,但在事实性、编码能力和问题解决方面表现不佳,强调了提高基础语言模型性能的重要性。
PROMETHEUS是一个在语言模型中引入细粒度评估能力的完全开源LLM,能够在配备适当的参考资料时展现出与专有模型相媲美的评估能力。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
Aviary是一个基于Gymnasium框架的语言模型Agent训练平台,专注于构建性任务,提供了灵活的训练环境和多种模型集成,旨在满足研究和应用中的多样化需求。
用于微调和评估开源大型语言模型的工具集,目前处于早期开发阶段,旨在为研究人员和开发者提供一个强大、灵活且易于使用的解决方案。
RestGPT 是基于大型语言模型的自主代理的代码实现,通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来,解决与规划、API 调用和响应解析相关的挑战。
Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
GPT4All是一款在本地运行的大型语言模型(LLM),最新发布了V3.0版本,支持多种模型架构,并与多种工具和平台集成。它基于LLaMa模型,使用约80万条GPT-3.5-Turbo生成的数据进行训练,支持多种类型的对话,包括代码和故事。GPT4All完全本地运行,确保数据隐私,支持Windows、MacOS、Ubuntu等操作系统,并具有改进的UI/UX。
FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准,提供多种评测任务,支持各种模型和算法的评估,易于扩展和定制,旨在推动中文NLP研究的发展。
将SOTA多模态能力融入语言模型,改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。
Smousss是一个专为Laravel开发者设计的AI工具,旨在帮助处理遗留项目。它提供了一系列功能,包括使项目可翻译、生成缺失的Laravel Nova管理面板等。Smousss利用机器学习来自动化重复任务,从而提高开发者的工作效率。