QwQ-32B官网 – 阿里开源的高效推理模型

QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型，基于 Qwen 系列，专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出，性能可能与 DeepSeek R1 相当，甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术，能够自我检查答案并形成关键“思考习惯”，支持长上下文处理（最多 131,072 tokens）。QwQ-32B 对本地算力要求较低，仅需 4 张 NVIDIA 4090 GPU 即可运行，适合普通企业和开发者使用。

QwQ-32B的特点:

1. 因果语言模型（Causal Language Models）
2. 参数数量总计 32.5 亿，非嵌入参数 31.0 亿
3. 支持长上下文处理，最多 131,072 tokens
4. 通过 YaRN 技术优化长输入处理
5. 适合数学问题和多项选择题

QwQ-32B的功能:

1. 生成深思熟虑的输出，适合数学问题和多项选择题
2. 支持长输入处理，通过 YaRN 技术优化
3. 推荐设置：温度（Temperature）0.6，TopP 0.95，MinP 0，TopK 20-40，存在惩罚（presence_penalty）0-2
4. 确保模型输出以 “\n” 开始，使用 apply_chat_template 并设置 add_generation_prompt=True
5. 长输入需在 config.json 中添加特定配置，支持 vLLM 部署

相关导航

Learning to Generate Better Than Your LLM-应用强化学习提升文本生成质量

研究团队从学习搜索算法中得到启示，利用文本生成的关键特性，应用了强化学习和引导反馈。该算法在IMDB正面评论和文本生成任务上超越了默认的PPO基线，证实了与指导型语言大模型交互的优势。

Awesome-Reasoning-Foundation-Models开源项目 – 聚焦推理任务的大型AI模型资源

该项目主要聚焦于推理任务，提供一个大型AI模型或基础模型的资源列表，旨在为研究人员和开发者提供丰富的推理模型选择及相关信息。

ai-resources开源项目 – AI/ML学习资源精选

ai-resources 是一个由 Memo Akten 精心挑选的人工智能、机器学习、统计推断、深度学习和强化学习的学习资源集合。该项目涵盖了多个领域的学习材料，包括文章、教程和研究论文，并由一位经验丰富的 AI 从业者定期更新，确保资源的时效性和质量。

DeepMind 机器人-通过深度学习模拟人类步态的机器人

这台通过DeepMind深度强化学习训练的机器人只有20个驱动关节。而人类步行需要对大约360个关节600块肌肉进行实时控制。

DeepSeek R1官网 – 生成式AI领域的重要模型

本报告讨论了DeepSeek R1模型，以及它的发布对生成式人工智能领域的更广泛意义。

R1-V开源项目 – 低成本高效的视觉语言模型训练方法

R1-V是一个开源视觉语言模型（VLM）项目，旨在通过强化学习和可验证奖励（RLVR）在极低成本（不到3美元）和短时间内（30分钟）实现超强泛化能力。该项目通过高效的训练方法和开源资源，显著提升了模型的性能，特别是在超出分布（OOD）测试中，2B模型在100个训练步骤后超越了72B模型的表现。

SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

Phi-4模型 – 小型语言模型，推理和数学能力出色

Phi-4 是微软研究院开源的一个小型语言模型，参数量仅140亿，但在多个基准测试中表现出色，可能超过OpenAI的GPT-4o以及同类顶级开源模型如Qwen 2.5-14B和Llama-3.3-70B。其训练数据包括高质量的合成数据，涵盖50多种数据集，生成约4000亿未加权tokens。采用监督微调（SFT）和直接偏好优化（DPO）技术，特别在数学竞赛相关任务中展现强大推理能力。

Phi-3.5-mini-instruct (128k)模型 – 轻量级高效指令生成模型

Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型，属于Phi-3系列。该模型专注于指令生成任务，具有3.8亿参数，支持128K超长上下文，训练数据达3.4T tokens。采用密集解码器-only Transformer架构，在512张H100-80G GPU上训练10天完成。支持22种语言，在推理任务上表现接近GPT-4水平，特别适合资源受限或延迟敏感的应用场景，如移动端部署和边缘计算。

simpleRL-reason开源项目 – 高效强化学习推理训练

一个强化学习项目，旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程，使得AI推理训练更加高效，且小模型也能表现出强大的推理能力。

Text2Graph-R1模型 – 开源文本转图结构提取工具

Text2Graph-R1 是一个开源项目，旨在复制 DeepSeek R1 的文本到图结构的提取训练方案。该项目基于 GRPO（Guided Reward Policy Optimization）强化学习技术，通过多阶段训练流程（包括数据生成、监督训练和强化学习）优化模型从非结构化文本中提取结构化信息的能力。项目特别强调通过多种奖励机制（如格式奖励、JSON有效性奖励和F1奖励）提升输出质量，并支持零样本图结构提取任务。

LeanDojo-定理证明的检索增强语言模型

LeanDojo 是一个基于检索增强的语言模型用于定理证明的项目，具备全自动化的数学推理能力，并可与现有的数学工具和资源集成。

flowRL官网 – 智能化用户界面个性化平台

flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型，您可以根据用户交互自动调整界面，以最大化您选择的目标指标。

LISA开源项目 – 学习可解释的技能抽象

LISA（Learning Interpretable Skill Abstractions）旨在通过强化学习任务来学习可解释的技能抽象，从而提高模型的可解释性。

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs论文 – 语言模型自我提升的四种关键认知行为

该研究论文探讨了语言模型通过强化学习实现自我提升的四种关键认知行为：验证、回溯、子目标设定和向后链式推理。研究发现这些行为对模型在可验证任务上的自我提升至关重要。通过比较Qwen-2.5-3B和Llama-3.2-3B模型在Countdown游戏中的表现，发现Qwen自然表现出这些行为，而Llama需要示例引导才能提升。研究还表明，推理行为的出现比答案的正确性更重要，并通过数据过滤和继续预训练使Llama匹配Qwen的表现。

暂无评论

暂无评论...