Predibase RFT官网 – 首个端到端强化微调平台

Predibase RFT 是由 Predibase 开发的强化微调平台，专注于通过强化学习优化大型语言模型（LLMs）。与传统监督式微调不同，RFT 不需要大量标注数据，而是通过奖励函数和自定义函数实现持续的强化学习。用户可以通过浏览器设置微调目标并上传数据，简化大型模型微调流程。平台支持课程学习、多 LoRA 框架和流式微批处理技术，提升训练和推理效率。此外，RFT 提供高性能无服务器部署解决方案，方便用户快速将训练好的模型部署到生产环境中。

Predibase RFT的特点:

1. 支持无服务器和端到端训练方法
2. 不依赖大量标注数据
3. 通过奖励函数和自定义函数实现持续强化学习
4. 支持课程学习
5. 兼容多个 LoRA 框架
6. 采用流式微批处理技术
7. 提供高性能无服务器部署解决方案

Predibase RFT的功能:

1. 使用强化学习对大型语言模型（LLMs）进行微调
2. 定制化模型以适应特定使用场景
3. 提高训练和推理的效率
4. 将训练好的模型快速部署到生产环境中

相关导航

Diverse Preference Optimization (DivPO)论文 – 提升LLM生成内容多样性的优化方法

Diverse Preference Optimization (DivPO) 是一种在线优化方法，旨在解决大型语言模型（LLM）在后训练阶段普遍存在的多样性坍缩问题。通过在偏好优化过程中引入多样性考量，DivPO 能够生成更多样化的回复，同时保持生成内容的质量。该项目由 Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov 在 2025 年发表，特别适用于需要多样性的创意生成任务，如故事生成和人物属性生成。

Ctrl-G开源项目 – 适应性逻辑控制大型语言模型

Ctrl-G是一个为大型语言模型提供适应性逻辑控制的项目，旨在优化模型的输出，使其更符合用户的交互需求。该项目通过引入逻辑控制机制，提升模型的响应准确性和合理性。

Prompt-to-Leaderboard (P2L)开源项目 – AI模型竞技场与路由器

P2L是一个基于AI模型的竞技场系统，通过用户输入的提示生成专属排行榜，并自动选择表现最强的模型进行回复。它结合了AI路由器功能，能够根据问题将请求转发给最适合的大模型，从而提高回答的准确性和效率。P2L还支持查看模型在特定领域的表现和不擅长的领域，帮助用户优化模型性能。

TrucefulQA-提升LLM在数据集上的正确率

哈佛大学出品的新论文，旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制，使得大型语言模型在处理特定数据集时表现更佳。

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法，旨在通过量化技术提高模型的计算效率和存储效率，同时保持模型性能。该项目适用于各种大型语言模型的优化，能够显著减少模型的内存占用和计算资源需求。

lite_llama开源项目 – 轻量级推理框架，专为大型语言模型优化

lite_llama是一个轻量级推理框架，旨在优化大型语言模型的性能，提供高达3.4倍的推理加速，支持最新的模型和流式输出功能，基于Triton实现，适用于各种需要高效推理的应用场景。

mcts-llm开源项目 – 提升大型语言模型性能的轻量级项目

mcts-llm是一个集成了蒙特卡洛树搜索（MCTS）和提示工程技术的轻量级项目，旨在提高大型语言模型（LLMs）的性能。该项目通过结合MCTS算法与大型语言模型，优化提示工程，来提升模型的响应质量。其轻量级的设计使得该项目易于集成和使用，并且支持多种语言模型，适用于各种自然语言处理任务。

2:4 Activation Sparsity Accelerating Transformer Inference and Training论文 – 加速Transformer训练和推理的稀疏性技术

该项目利用2:4稀疏性模式，通过硬件加速的GPU稀疏性来优化Transformer模型的训练和推理过程。特别针对Squared-ReLU激活函数，该函数天然具有高稀疏性（84-98%），在不损失准确性的情况下，前向和后向传播中的前馈网络（FFN）计算速度提高高达1.3倍。项目通过自定义内核高效处理稀疏操作，并通过张量分割和令牌排列优化后向传播，展示了稀疏性在加速大型语言模型（LLM）中的关键潜力。

rlhf-summary-notes开源项目 – 汇总RLHF算法资料库

汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

WaveCoder-增强指令调优与数据生成

WaveCoder是一个广泛且多才的项目，专注于增强指令调优和精炼数据生成，采用经过精心调优的代码语言模型和生成器-判别器框架，从开源代码中生成高质量、非重复的指令数据，显著提升大型语言模型在与代码相关任务中的表现和泛化能力。

MLOps-Basics开源项目 – MLOps基础教程

MLOps-Basics是一个通过Jupyter Notebook形式逐步引导读者掌握MLOps核心概念和实践技能的系列教程。项目涵盖了从数据获取与处理、模型定义与训练、推理实现等基础环节，逐步深入到模型监控、配置管理、数据版本控制、模型打包、CI/CD、容器注册、无服务器部署以及预测监控等高级主题。教程通过每周一个主题的方式，帮助读者全面理解MLOps的各个方面。

OpenSparseLLMs/Linearization开源项目 – 提升LLM计算效率的创新项目

OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目，旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架，实现了LLMs的高效线性化，并提供了完整的训练与评估流程，助力模型优化。

OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

ULLME开源项目 – 统一框架，优化语言模型

ULLME是一个统一的框架，旨在通过生成增强学习优化大型语言模型的嵌入，支持双向注意力机制以及多种微调策略，帮助提升模型的性能和效果。