verl开源项目 – 高效强化学习训练库

verl 是火山引擎开源的大型语言模型（LLMs）强化学习（RL）训练库，基于 HybridFlow 论文设计，旨在简化和加速 LLM 的强化学习过程。verl 提供了灵活的 RL 算法扩展、无缝集成现有 LLM 基础设施、灵活的设备映射、与 Hugging Face 模型的轻松集成，并通过 3D-HybridEngine 实现高效的 Actor 模型重分片，显著减少训练和生成阶段的通信开销。

verl的特点:

1. 灵活的 RL 算法扩展
2. 无缝集成现有 LLM 基础设施
3. 灵活的设备映射
4. 与 Hugging Face 模型轻松集成
5. 高效的 Actor 模型重分片
6. 支持多种 RL 算法（如 PPO、GRPO、ReMax 等）
7. 支持多模态 RL 和视觉语言模型（VLMs）
8. 支持 Flash Attention 2、序列打包、序列并行等技术
9. 可扩展至 70B 模型和数百个 GPU
10. 实验跟踪支持（wandb、swanlab、mlflow、tensorboard）

verl的功能:

1. 用于 LLM 的强化学习训练
2. 与 Hugging Face 模型集成进行训练
3. 使用 PPO、GRPO 等算法进行强化学习训练
4. 支持多模态 RL 训练
5. 进行实验跟踪和性能调优
6. 扩展至其他 RL 算法和框架

相关导航

stable-video-diffusion.cc官网 – 图像转视频的免费工具

stable-video-diffusion.cc 是一个免费工具，利用 Hugging Face 的能力，帮助用户轻松将图像转换为视频，并提供教学视频和相关示例。

Aviary开源项目 – 与多种LLM互动的平台

Aviary允许在一个地方与各种大型语言模型(LLM)进行交互。用户可以直接比较不同模型的输出，按质量进行排名，并获得成本和延迟估计等功能。它特别支持在Hugging Face上托管的Transformer模型，并在许多情况下还支持DeepSpeed推理加速。

Preference Proxy Evaluations (PPE)开源项目 – 评估奖励模型与人类偏好的基准测试

一个用于评估奖励模型和LLM裁判的基准测试，帮助在大规模LLM训练和评估中复制人类偏好，包含真实的人类偏好数据和可验证的正确性偏好数据。

AutoGPTQ开源项目 – 大语言模型量化工具

AutoGPTQ 是一个基于 GPTQ 算法的大语言模型量化包，旨在帮助开发人员释放大语言模型的全部潜力。它提供了用户友好的 API，支持多种大语言模型的量化，能够在推理中显著提高模型的性能。AutoGPTQ 支持多种量化配置，并且与 Hugging Face 的 Transformers、Optimum 和 PEFT 等库无缝集成，使得 GPTQ 模型的运行和训练更加便捷。

llm开源项目 – 轻量级LLM培训工具

一个使用简单、原始的 C/CUDA 进行LLM培训的项目，旨在提供轻量级的实现，减少对大型库的依赖。

FluidStack官网 – 领先的AI与LLM训练GPU云平台

FluidStack是一个全球数据中心网络的GPU云平台，提供超过50,000个GPU，支持AI和大语言模型（LLM）的训练。用户可以免费开始使用并无缝扩展。

llm-action开源项目 – 大模型教学项目，分享技术与经验

本项目旨在分享大模型相关技术原理以及实战经验，包括大模型工程化和应用落地，降低学习难度，促进技术普及。

smolagents开源项目 – 轻量级AI Agent构建工具

smolagents是由Hugging Face开源的一款轻量级AI Agent构建工具，核心逻辑仅约一千行代码，功能完整且易于使用。它支持40+主流LLM，并能通过几行代码快速构建强大的AI Agent系统。smolagents与Hugging Face Hub无缝集成，支持自定义模型下载和工具分享，同时提供安全解释器和沙箱环境，确保代码执行的安全性。

通过多标记预测实现更好且更快的超大型语言模型官网 – 提升LLM效率与性能的新方法

该项目提出了一种名为多标记预测的新型大型语言模型（LLM）训练方法。与传统的下一标记预测不同，该方法在训练语料的每个位置同时预测多个未来标记，每个标记的损失独立计算。通过优化前向和后向传播的顺序，该方法显著减少了GPU内存使用，且不增加训练时间。实验表明，该方法在编码和自然语言任务上显著提高了性能，推理速度大幅提升，特别适合实时应用。

LLMs.txt 生成器 (Alpha)官网 – 网站内容转化为AI模型可用文本

LLMs.txt 生成器 (Alpha) 是由 Firecrawl 开发的工具，旨在将网站内容快速转化为 AI 模型可直接使用的结构化文本文件，如 llms.txt 和 llms-full.txt。它通过优化算法和异步处理技术，支持爬取网站及其链接页面，生成简洁摘要和完整文本，适用于大型语言模型 (LLM) 的训练和分析。

TRL开源项目 – 强化学习训练基础模型

TRL 是一个用于增强训练基础模型的 Python 库，支持监督微调、近端策略优化和直接偏好优化等技术。它与 Hugging Face Transformers 生态系统紧密集成，支持多种模型架构和模态，并支持分布式训练。TRL 提供了多种训练器，如 SFTTrainer、GRPOTrainer、DPOTrainer 和 RewardTrainer，方便用户进行模型微调。此外，TRL 还支持通过 Hugging Face Accelerate 进行高效扩展，并集成了 Hugging Face PEFT 和 Unsloth 来优化训练过程。

RamaLama开源 – 简化AI模型管理的工具

RamaLama 是一个开源项目，旨在通过使用 OCI 容器技术简化 AI 模型的管理和部署，使其操作变得简单无聊。它特别适合希望快速启动 AI 工作负载的用户，尤其是那些不希望处理复杂配置的开发者。RamaLama 支持一键运行 AI 模型，无需复杂设置，并兼容多种硬件平台，包括 CPU、GPU 和 Apple Silicon。此外，它还集成了 Hugging Face 和 Ollama 等模型注册表，方便用户从这些平台拉取模型，并提供本地管理和服务功能，支持通过简单命令启动聊天机器人或 REST API 服务。