AgentBoard是一个多轮LLM智能体的分析评估排行榜,旨在评估大型语言模型的通用Agent能力。它提供全面的性能分析和可视化结果,支持多种模型的比较,帮助用户深入理解智能体在对话中的表现。
Aviary允许在一个地方与各种大型语言模型(LLM)进行交互。用户可以直接比较不同模型的输出,按质量进行排名,并获得成本和延迟估计等功能。它特别支持在Hugging Face上托管的Transformer模型,并在许多情况下还支持DeepSpeed推理加速。
open-llms项目整理了可商用的大语言模型列表,并详细列出了各模型的许可协议,旨在为用户提供最新、全面的信息,方便用户在选择和使用这些模型时进行比较和决策。
WOODS是一个针对序列预测任务的出界泛化基准集合,旨在评估模型在各种序列预测任务中的出界泛化能力。该项目提供了一个标准化的基准,方便研究人员在该领域进行比较和实验。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
Analytiqus是一个综合性的商业分析与机器学习平台,能够连接多种数据库,使用交互式图表可视化数据,执行特征工程,并利用流行的机器学习模型如RNN、LSTM和CNN。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
该项目旨在通过研究自然语言处理中的组合泛化,提供有效的模型和方法,以提升NLP任务的表现。
Platea AI帮助团队快速运行并行测试,结合多个提示和模型,快速达到所需的提示水平。它还允许用户轻松管理和操作快速创建的提示版本。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型