推理任务优化

Huginn 是一种新型语言模型架构，基于循环深度设计，允许在测试时扩展计算量，而无需增加模型参数或上下文窗口长度。该模型通过在连续潜在空间中迭代循环进行隐式推理，从而提升语言模型在推理任务上的表现。Huginn 的训练数据达 8000 亿个标记，涵盖代码、数学、科学文本和通用文本等多种类型，并提供 35 亿参数的版本，适合在普通硬件上部署。

PyTorch模型应用循环深度语言模型推理任务优化本地部署AI模型

Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法

TOPR 是一种新型强化学习算法，专为微调大型语言模型（LLM）设计，特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习，无需依赖 KL 正则化，支持完全离线应用，统一处理正负示例，并受益于 Monte Carlo 方法的简单性。实证研究表明，在推理任务的 off-policy 微调中，TOPR 表现优于朴素 REINFORCE、PPO 和 DPO，特别是在 GSM8K 和 MATH 基准测试中表现出色。

LLM微调算法off-policy学习强化学习推理任务优化

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。