一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
liteLLM是一个开源库,旨在简化LLM(大语言模型)的完成和嵌入调用。它提供了一个方便易用的接口,使得调用不同的LLM模型变得更加简单。用户只需导入'litellm'库并设置必要的环境变量(如OPENAI_API_KEY和COHERE_API_KEY),即可创建Python函数并使用liteLLM进行LLM完成调用。此外,liteLLM还提供了一个演示平台,用户可以在其中编写Python代码并查看输出,从而比较不同的LLM模型。
Anote平台通过人性化的AI技术,积极从人类反馈中学习,不断优化GPT-4、Bard、Claude等AI算法及RLHF、Fine-Tuning和RAG等技术,使其在特定用例中随着时间的推移表现得更好。
本项目对大型语言模型中的上下文长度扩展进行了详细调研,讨论了现有策略、评估复杂性及研究者面临的挑战。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
一种优化视觉语言提示上下文的方法,通过知识引导提升交互效果。
Smol是一个为AI工程师和开发者设计的创新AI工具,旨在持续优化他们的AI模型。作为一个持续微调平台,Smol利用更小、更高效的模型来优化AI应用开发,兼容OpenAI的生态系统,为熟悉OpenAI API的开发者提供更量身定制和高效的解决方案。
DevinAI.dev是由Cognition Labs开发的全球首个自主AI工程师,它简化了开发过程,使工程师能够专注于复杂的工程挑战。
Swarms Cloud是一个终极平台,专为快速、可靠和经济地部署与扩展多模态AI模型而设计,能够满足各种需求,帮助用户轻松管理和优化其AI模型。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
一种新的优化器,结合了Prodigy和ScheduleFree的优点,旨在减少机器学习训练中的超参数设置,提高模型训练的效率和稳定性。通过简化参数调整过程,帮助用户更专注于模型开发和优化。
这个开源项目是一个响应式聊天应用程序,使用了OpenAI的GPT-4进行动力支持。它具有响应流、代码高亮和各种预设功能,适用于开发人员。这个项目使用了Next.js、React和Joy等技术。
Open-LLM-Leaderboard是一个用于追踪各种大型语言模型(LLMs)在开放式问题上的表现的基准测试平台,旨在反映模型的真实能力,并通过开放社区促进共同进步。
这是一个完整的管道,用于在消费硬件上使用LoRA和RLHF微调Alpaca LLM。基于Alpaca架构实现人类反馈的强化学习(RLHF),基本上是ChatGPT的一个变体,但使用的是Alpaca。
Confabulations是一个针对检索增强型生成模型(RAG)的基准测试,旨在评估大型语言模型在面对基于文档的误导性问题时的能力,并提供工具以减少生成虚构答案的能力。