Prompt2Model 是一个从自然语言指令生成可部署模型的工具,旨在帮助系统构建者通过自然语言描述任务并提供示例来创建自然语言处理系统。
收集和梳理垂直领域的开源模型、数据集及评测基准,方便研究人员和开发者使用。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
LLM-Dojo是一个开源大模型学习场,提供简洁易读的代码框架,支持多种主流模型的训练和强化学习技术,旨在帮助AI爱好者和研究者进行深入的研究和开发。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
Encord是一个全面的数据引擎,专为AI模型开发而设计。它为高级计算机视觉团队提供工具和工作流程,以简化标记和工作流管理,清理和整理数据,验证标签质量,以及评估模型性能。用户可以通过创建项目和上传视觉数据来使用Encord,随后使用注释工具和工作流管理功能进行数据标注。
APEBench是一个用于评估偏微分方程(PDE)自回归神经仿真器的基准测试框架,提供标准化的评估工具,支持多种自回归建模配置,旨在促进不同模型和技术之间的比较。
OpenAI改进了大规模训练稀疏自动编码器的方法,以提取可解释特征并理解语言模型的神经活动。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型