AI交流(进群备注:QwQ-32B)

QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型,基于 Qwen 系列,专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出,性能可能与 DeepSeek R1 相当,甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术,能够自我检查答案并形成关键“思考习惯”,支持长上下文处理(最多 131,072 tokens)。QwQ-32B 对本地算力要求较低,仅需 4 张 NVIDIA 4090 GPU 即可运行,适合普通企业和开发者使用。
QwQ-32B的特点:
- 1. 因果语言模型(Causal Language Models)
- 2. 参数数量总计 32.5 亿,非嵌入参数 31.0 亿
- 3. 支持长上下文处理,最多 131,072 tokens
- 4. 通过 YaRN 技术优化长输入处理
- 5. 适合数学问题和多项选择题
QwQ-32B的功能:
- 1. 生成深思熟虑的输出,适合数学问题和多项选择题
- 2. 支持长输入处理,通过 YaRN 技术优化
- 3. 推荐设置:温度(Temperature)0.6,TopP 0.95,MinP 0,TopK 20-40,存在惩罚(presence_penalty)0-2
- 4. 确保模型输出以 “
\n” 开始,使用 apply_chat_template 并设置 add_generation_prompt=True - 5. 长输入需在 config.json 中添加特定配置,支持 vLLM 部署
相关导航

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs论文 – 语言模型自我提升的四种关键认知行为
该研究论文探讨了语言模型通过强化学习实现自我提升的四种关键认知行为:验证、回溯、子目标设定和向后链式推理。研究发现这些行为对模型在可验证任务上的自我提升至关重要。通过比较Qwen-2.5-3B和Llama-3.2-3B模型在Countdown游戏中的表现,发现Qwen自然表现出这些行为,而Llama需要示例引导才能提升。研究还表明,推理行为的出现比答案的正确性更重要,并通过数据过滤和继续预训练使Llama匹配Qwen的表现。
暂无评论...