AI-magic AI-magic AI-magic AI-magic
  • 热门推荐
  • AI工具导航
    • AI工具
    • AI对话工具
    • AI写作工具
    • AI提示工具
    • AI办公工具
    • AI图像工具
    • AI音频工具
    • AI视频工具
    • AI设计工具
    • AI编程工具
    • AI学习网站
    • AI开发框架
    • AI其他工具
  • 开源导航
    • AI开源项目
    • 开源项目
  • 工具站导航
  • AI教程
  • AI百科
  • AI书籍
  • AI资源
  • AI快讯
  • 网站提交
AI-magic AI-magic
  • 首页
  • 黑洞
  • 导航主题
  • 图标

    推理任务优化

    Huginn模型 – 循环深度语言模型,提升推理任务表现
    Huginn模型 – 循环深度语言模型,提升推理任务表现

    Huginn 是一种新型语言模型架构,基于循环深度设计,允许在测试时扩展计算量,而无需增加模型参数或上下文窗口长度。该模型通过在连续潜在空间中迭代循环进行隐式推理,从而提升语言模型在推理任务上的表现。Huginn 的训练数据达 8000 亿个标记,涵盖代码、数学、科学文本和通用文本等多种类型,并提供 35 亿参数的版本,适合在普通硬件上部署。

    0
    PyTorch模型应用循环深度语言模型推理任务优化本地部署AI模型
    Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法
    Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法

    TOPR 是一种新型强化学习算法,专为微调大型语言模型(LLM)设计,特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习,无需依赖 KL 正则化,支持完全离线应用,统一处理正负示例,并受益于 Monte Carlo 方法的简单性。实证研究表明,在推理任务的 off-policy 微调中,TOPR 表现优于朴素 REINFORCE、PPO 和 DPO,特别是在 GSM8K 和 MATH 基准测试中表现出色。

    0
    LLM微调算法off-policy学习强化学习推理任务优化
    AI-magic AI-magic
    AI-magic收录了大量国内外AI工具箱,包括AI写作、图像、视频、音频、编程等各类AI工具,以及常用的AI学习、技术、和模型等信息,让你轻松加入人工智能浪潮。
    Copyright © 2025 AI-magic 浙ICP备19008543号-3 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!