GigaMIDI Dataset 是音乐生成领域的一个大型数据集,包含约143万MID文件,提供了详细的元数据和预训练模型,并引入了新的循环检测和音乐表现力评估指标。该数据集旨在支持音乐生成、分析和性能评估的研究,特别适用于机器学习模型的训练和符号音乐处理的深入研究。
一种新的优化器,结合了Prodigy和ScheduleFree的优点,旨在减少机器学习训练中的超参数设置,提高模型训练的效率和稳定性。通过简化参数调整过程,帮助用户更专注于模型开发和优化。
一种特殊的神经网络架构,可以在不增加推理成本的情况下,为语言大模型(LLM)增加可学习的参数。该研究发现模型比密集模型更能从指令调优中获益,因此提出将MoE和指令调优结合起来。
LOMO是复旦大学提出的新论文,旨在使用单台8片24G的RTX 3090对Llama 65B模型进行全参数微调。该项目通过优化训练效率和性能,为用户提供了兼容多种深度学习框架的解决方案,并附带详细的实验结果和分析,帮助用户更好地理解模型的表现。
MosaicML 提供的示例项目,旨在帮助用户更好地理解和使用其机器学习工具和框架。该项目包含多种模型训练示例,特别是针对大型语言模型(LLM)的应用。通过高效的资源管理和优化建议,集成了 FSDP(Fully Sharded Data Parallel)以提升训练性能,并提供详细的文档和使用指南,方便开发者快速上手。
一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架,提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型,具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务,提供Python API和Docker部署支持。
openagent是一个模块化组件库和编排框架,受到微服务方法的启发,为开发人员提供构建强大、稳定和可靠的人工智能应用程序和实验性自主智能体所需的所有组件。它支持易于扩展和维护的设计,提升了系统的可伸缩性,适用于构建复杂的AI应用和自主智能体。
Katana ML Skipper 是一个简单且灵活的机器学习工作流引擎,支持多种机器学习任务,具有强大的可扩展性,能够轻松集成其他工具和库,帮助用户高效地创建和管理机器学习工作流。
HyperLLM是一种新一代的小型语言模型,称为'混合检索变换器',利用超检索和无服务器嵌入技术,实现即时微调和训练,成本降低85%。
一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
NVIDIA官方推出的库,用于压缩transformer模型中的KV缓存,最大可节省约35%的内存空间。kvpress通过多种缓存修剪方法,使大型语言模型的缓存压缩变得简单,降低内存使用并提高解码速度。
这是一个用于分布式PyTorch训练的基础项目,旨在帮助用户快速定制自己的网络。
该项目提供了多种梯度下降算法的实现,旨在高效优化机器学习模型的训练过程。