标签:强化学习

Deep seek RY:AI领域的新星,挑战与机遇并存

本文深入探讨了Deep seek RY在AI领域的技术优势与挑战,对比了其与Open AI在数据处理和商业化模式上的差异,并分析了其开源策略对全球AI生态的影响,为中国和...

DeepSeek与OpenAI的技术对比及其全球影响

本文深入探讨了DeepSeek与OpenAI在技术路径和商业化模式上的差异,重点分析了DeepSeek的推理模型训练方法,包括高质量数据冷启动、面向推理的强化学习以及数...

O3迷你版:AI推理模型的新里程碑

本文深入探讨了O3迷你版AI推理模型的最新进展,分析了其对算力需求的影响以及与DeepSeek和OpenAI的竞争。文章还详细介绍了O3迷你版在强化学习和长思维链技术...

大模型驱动的具身智能体协同方法:未来人工智能的关键突破

中国电信人工智能研究院(TeleAI)院长李学龙教授及其团队提出了一种大模型驱动的具身智能体协同方法,该方法在多智能体强化学习框架下实现了高效的多智能体...

Kimi k1.5:国产AI大模型的多模态革命与未来应用

本文深入探讨了国产AI大模型Kimi k1.5的核心技术、性能优势及其在计算机视觉、图像处理等领域的应用潜力。通过对比其与GPT-4、Claude 3.5 Sonnet等国际领先模...

商汤绝影J6智驾方案:引领自动驾驶新纪元

商汤绝影CEO王晓刚在2025全球开发者先锋大会上宣布,J6智驾方案通过强化学习减少对数据的依赖,实现超越人类的驾驶水平。商汤已与多家车厂达成战略合作,预计...

探索RLHF新方法:从迷宫导航到多语言优化

本文探讨了在AI研究中,针对新的RLHF/RLAIF pipeline的研究方法,包括提出新的RL算法、数据收集方法和奖励训练算法,并与PPO、DPO、KTO等算法在不同数据上的...

离散扩散语言建模方法:ICML 2024最佳论文的技术突破

ICML 2024最佳论文提出了一种新的离散扩散语言建模方法,通过引入分数熵损失函数显著提升了语言模型的性能。该方法在实验中优于GPT-2,为语言模型优化提供了...

月之暗面强化学习战略:多模态与长文本推理的未来布局

月之暗面将“持续拿到SOTA结果”作为核心目标,并计划在2025年强化多模态和长文本推理能力。面对DeepSeek的竞争,月之暗面可能将强化学习作为重点方向,探索闭...

月之暗面技术创新:Muon优化器助力大规模预训练模型突破

月之暗面团队通过改进Muon优化器,成功将其应用于大规模预训练模型,显著降低算力需求并提升模型性能。这一技术突破不仅验证了Muon在大规模训练中的可行性,...
1 11 12 13 14 15 18