ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具,旨在解决复杂场景下的函数调用评估难题,帮助开发者优化模型性能。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
FreeAiKit是由Prgmine提供的一套AI工具,旨在帮助用户完成各种与AI相关的任务,且免费提供。用户可以通过访问网站浏览工具,每个工具都有详细的描述和使用说明,用户可根据指南选择所需工具并应用于AI项目。
TransferAttack是一个基于PyTorch的框架,旨在提升图像分类中的对抗性传递性,提供评估和攻击模型的功能,并对已有的传递性攻击进行分类和评估。
Substratus.AI是一个专注于大规模语言模型(LLMs)的平台,旨在以极简的方式实现机器学习模型的部署和微调。用户可以在几分钟内安装所需的ML平台,并通过单个命令轻松运行和微调最先进的LLMs。
‘英特尔创新大师杯’深度学习挑战赛赛道3专注于中文自然语言处理中的地址相关性任务,提供了一种基于深度学习的高效解决方案,包含模型训练、评估及开源实现,旨在促进社区的使用与贡献。
Qwen2-VL微调工具:用于微调开源多模态大模型Qwen2-VL,支持单GPU和多GPU训练,提供简易上手的微调脚本和数据,旨在帮助开发者快速进行模型微调或再训练
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
mlx-benchmark是一个基准测试项目,旨在评估苹果的MLX操作在不同硬件平台上的性能,包括mlx GPU、CPU、torch MPS和CUDA。它提供了详细的性能评估,并且是一个易于使用的基准测试工具,支持用户自定义测试场景,帮助开发者更好地理解和优化他们的MLX操作。
xCodeEval是一个大规模多语言多任务基准,用于评估代码理解、生成、翻译和检索的能力,旨在为研究和开发提供支持。
卡内基梅隆大学团队在首届AI数学奥林匹克竞赛(AIMO)中获得亚军的开源项目,包含完整的训练数据集(AIME、AMC、Odyssey-Math)、验证集、模型微调代码和数据收集脚本,为研究AI解决数学问题提供了宝贵资源
一个用于性能测试的项目,专门针对 Lealone 数据库,包含异步客户端和多种运行模式。
ZodGPT是一个工具,利用OpenAI的新0613模型,通过函数调用返回结构化的、全类型化的JSON输出,方便开发者在类型安全的环境中处理数据。