StructuredRAG是一个用于评估大型语言模型(LLM)遵循响应格式指令能力的六个任务基准,旨在研究不同提示策略对模型性能的影响,并提供复杂任务的性能评估。该项目还包括开源实验代码和结果,方便研究人员进行进一步探索。
Rompt是一个帮助开发者和公司通过对提示进行A/B测试实验来优化其AI驱动产品的平台。用户可以创建不同的提示并进行实验,以确定哪些提示表现最佳。
Athina AI是一款旨在帮助开发者监控和评估其大语言模型(LLMs)应用程序的工具,专注于生产环境中的性能监控、故障检测以及提示管理。通过Athina,开发者可以实时跟踪LLMs的表现,及时发现并修复模型的幻觉问题,从而提升应用的可靠性和用户体验。
一款可编程的命令行程序,用于与大型语言模型(LLM)接口,主要功能是将标准输入发送至LLM并将其响应输出到标准输出,特别适合在文本编辑器中如Vim中使用
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
为ChatGLM/LLaMA等多种LLM提供了一个好用的基于PDF问答的图形界面,用户可以通过上传PDF文件与模型进行交互,获取所需的信息,界面友好,操作简单,适合各类用户使用。
该项目实现了针对语言模型的攻击方法,特别是在指令调优过程中,旨在提高模型对恶意输入的鲁棒性,同时研究指令调优对模型性能的影响。
garak是一个用于检测不良提示响应的模块化工具,专注于LLM漏洞扫描,支持多种生成模型,旨在提升安全性和响应质量。
高性能的Python计算引擎,专为数据处理和人工智能设计,能够自动并行化Python程序,无需重写代码,大幅提升计算效率
Litellm是一个Python SDK/Proxy Server,旨在简化与多种大语言模型API的交互,支持使用OpenAI格式调用100多个LLM API,提供统一的输入输出格式,易于集成和使用。
本项目对零阶优化技术进行了基准研究,重点关注在微调大型语言模型时的内存效率。
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Control,提供有关操作系统代理的研究进展、相关论文、框架、评估基准及安全隐私资源。