rational_kat_cu 是一个用于 Kolmogorov–Arnold Transformers (KAT) 的 CUDA C++ 扩展项目,专注于实现 group rational function,并支持高效的训练和推理。通过 CUDA 加速,该项目显著提升了 KAT 模型的性能,特别适用于需要高性能计算的场景。
MMR1是多模态推理领域的前沿项目,通过极少量数据实现顶尖性能。该项目仅使用6k公开数据进行训练,达到了开源7B多模态模型的SOTA性能,并且在6小时内完成高效训练,具有极高的性价比。此外,MMR1采用了数据平衡策略,能够覆盖多样化的数学问题类型。
neosr 是一个开源的超分辨率模型训练框架,旨在简化图像恢复过程。它支持多种架构和数据集,提供高效的训练能力,适用于各种图像恢复任务。
Gigastep是一个高效的多智能体强化学习框架,能够每秒处理高达10亿步的训练,支持灵活的配置选项,并且易于与现有的强化学习算法集成。
这是一个开源实现,旨在为Meta的Llama3.2-Vision系列模型提供微调功能,支持高效训练,兼容Liger-Kernel,提升模型性能和训练效率。
OneFlow 是一个分布式深度学习框架,旨在使每位算法工程师能够训练超大模型,例如 GPT,克服高训练成本和大模型落地难的问题。它提供易用且高效的动态图和静态图训练接口,支持多种硬件设备,简化模型部署和训练过程。
在本地计算机上微调 LLAMA-v2(或任何其他 LLM)的最简单方法,提供用户友好的界面和高效的训练过程,支持多种语言模型,方便用户上传数据并进行微调。
Trudo AI是一个平台,允许用户在几分钟内构建、自动化和扩展复杂的Python工作流,无需DevOps知识。它提供了一个直观的用户界面,用户可以在此基础上微调OpenAI GPT3模型,构建复杂的AI应用。
一个用纯C语言实现的项目,旨在训练GPT-2模型,代码量仅为1000行,具有高效的内存管理和性能优化,方便扩展和修改。
一个基于HuggingFace开发的大语言模型训练、测试工具。支持各模型的webui、终端预测,低参数量及全参数模型训练和融合、量化。
Wordware是一个基于网络的集成开发环境,专为大型语言模型(LLM)协调而设计,帮助跨职能团队构建AI应用。它作为LLM的后端,类似于一种新的编程语言,基于英语,同时融合了循环、逻辑和函数调用等概念。
一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
Unsloth Zoo是一个提供用于Unsloth的实用工具库,旨在支持免费微调和加速大型语言模型,帮助开发者更高效地使用和优化语言模型。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。
NanoGPT是一个开源的轻量级语言模型训练工具,专为语言模型爱好者打造,适合在普通电脑上进行GPT架构的训练和实验。它通过精简架构、优化梯度计算和内存管理,使得在普通硬件上也能高效训练语言模型。
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
accelerate是一个工具,可以帮助用户在多种设备上简单地运行PyTorch训练脚本,支持多GPU和TPU训练,并提供了易于集成的解决方案。它使得混合精度训练变得简单,同时支持分布式训练,用户可以通过命令行接口轻松启动训练任务。
ColdDM是一个通过Twitter平台帮助用户找到目标客户并发送个性化消息的工具。用户可以根据特定条件筛选出潜在客户,例如喜欢、转发或回复某个帖子的人,或者在个人简介中包含特定关键词的人。还可以批量上传CSV文件进行处理。用户能够一次性发送所有私信,也可以设置每天发送的数量。