强化学习 | 第 13 页

Deep seek RY：AI领域的新星，挑战与机遇并存

本文深入探讨了Deep seek RY在AI领域的技术优势与挑战，对比了其与Open AI在数据处理和商业化模式上的差异，并分析了其开源策略对全球AI生态的影响，为中国和...

AI快讯

4个月前

本文深入探讨了DeepSeek与OpenAI在技术路径和商业化模式上的差异，重点分析了DeepSeek的推理模型训练方法，包括高质量数据冷启动、面向推理的强化学习以及数...

AI快讯

4个月前

本文深入探讨了O3迷你版AI推理模型的最新进展，分析了其对算力需求的影响以及与DeepSeek和OpenAI的竞争。文章还详细介绍了O3迷你版在强化学习和长思维链技术...

AI快讯

4个月前

中国电信人工智能研究院（TeleAI）院长李学龙教授及其团队提出了一种大模型驱动的具身智能体协同方法，该方法在多智能体强化学习框架下实现了高效的多智能体...

AI快讯

4个月前

本文深入探讨了国产AI大模型Kimi k1.5的核心技术、性能优势及其在计算机视觉、图像处理等领域的应用潜力。通过对比其与GPT-4、Claude 3.5 Sonnet等国际领先模...

AI快讯

4个月前

商汤绝影CEO王晓刚在2025全球开发者先锋大会上宣布，J6智驾方案通过强化学习减少对数据的依赖，实现超越人类的驾驶水平。商汤已与多家车厂达成战略合作，预计...

AI快讯

4个月前

本文探讨了在AI研究中，针对新的RLHF/RLAIF pipeline的研究方法，包括提出新的RL算法、数据收集方法和奖励训练算法，并与PPO、DPO、KTO等算法在不同数据上的...

AI快讯

4个月前

ICML 2024最佳论文提出了一种新的离散扩散语言建模方法，通过引入分数熵损失函数显著提升了语言模型的性能。该方法在实验中优于GPT-2，为语言模型优化提供了...

AI快讯

4个月前

月之暗面将“持续拿到SOTA结果”作为核心目标，并计划在2025年强化多模态和长文本推理能力。面对DeepSeek的竞争，月之暗面可能将强化学习作为重点方向，探索闭...

AI快讯

4个月前

月之暗面团队通过改进Muon优化器，成功将其应用于大规模预训练模型，显著降低算力需求并提升模型性能。这一技术突破不仅验证了Muon在大规模训练中的可行性，...

AI快讯

4个月前