强化学习 | 第 16 页

DeepSeek-R1-Zero：无需监督微调的强化学习新突破

DeepSeek-R1-Zero通过直接应用强化学习，绕过了监督微调，成功探索链式思维解决复杂问题。这一突破不仅验证了仅通过强化学习即可激励大语言模型的推理能力，...

AI快讯

2个月前

DeepSeek-V3/R1模型因其强大性能引发API低价内卷，开源模型为私有模型构建提供了“巨人的肩膀”。Colossal-AI发布的开源大模型后训练工具箱，支持低成本微调和...

AI快讯

2个月前

月之暗面公司将强化学习作为重要方向，并计划在2025年继续强化多模态和长文本推理能力。本文探讨了多模态技术的应用场景及其与强化学习的结合，为人工智能的...

AI快讯

2个月前

本文深入探讨了强化学习与人类反馈（RLHF）技术，揭示其如何通过人类偏好数据优化大语言模型，减少模型幻觉和毒性，提升生成内容的准确性和可接受性。RLHF不...

AI快讯

2个月前

阶跃星辰与清华大学联合发布的OpenReasonerZero模型，通过创新的RL训练方法，仅需1/30的训练步骤即可达到与DeepSeek-R1-Zero相同尺寸的蒸馏Qwen模型的性能。...

AI快讯

2个月前

国内技术团队通过OpenReasonerZero项目，成功将DeepSeek-R1-Zero的训练步骤减少至原来的1/30，显著提升了训练效率。这一突破不仅简化了强化学习的训练流程，...

AI快讯

2个月前

本文探讨了ChatGPT和GPT-4等AI模型的进展，以及它们在决策生成和多智能体系统中的应用。OpenAI首席执行官Sam Altman对AI的强大能力表示担忧，而伦敦大学学院...

AI快讯

2个月前

本文探讨了ChatGPT和GPT-4等AI模型在决策生成和多智能体系统中的应用进展。OpenAI首席执行官Sam Altman对AI的强大能力表示担忧，而伦敦大学学院教授汪军则强...

AI快讯

2个月前

本文深入探讨了大模型在逻辑推理能力上的突破，特别是通过基于规则的强化学习技术，显著提升了模型在复杂问题上的表现。文章还介绍了相关研究的最新进展，以...

AI快讯

2个月前

本文深入解析多种AI智能体开发框架，涵盖数据处理、模型训练、部署和监控的全流程。涉及的框架包括通用机器学习、强化学习、自然语言处理、计算机视觉等，帮...

AI快讯

2个月前