强化学习 | 第 10 页

Kimi-1.5思维链模型：AI推理能力的未来之路

本文深入探讨了Kimi-1.5思维链模型的技术细节与创新点，分析了其在AI推理领域的应用潜力与未来发展方向。通过与DeepSeek-R1等模型的对比，揭示了强推理模型的...

AI快讯

2个月前

蚂蚁数科的两项研究成果分别入选了欧洲计算机视觉会议（ECCV）和国际机器学习大会（ICML），展示了无需人工标注数据的情况下，通过自监督学习和强化学习等方...

AI快讯

2个月前

蚂蚁数科的研究成果展示了通过自监督学习和强化学习训练模型输出可信结果的能力，同时DeepSeek的透明化模型为推理模型的发展提供了新思路。这些技术将在视频...

AI快讯

2个月前

蚂蚁数科的两项研究成果入选ECCV和ICML，展示了自监督学习和强化学习在无需人工标注数据的情况下训练模型的能力。这些成果将推动视频版权保护和智能问答领域...

AI快讯

2个月前

DeepSeek最新发布的DeepSeek-R1模型在AI推理领域取得了显著突破，通过强化学习与监督微调的结合，展现了强大的问题解决能力。本文深入探讨了DeepSeek-R1的技...

AI快讯

2个月前

本文深入探讨了稀疏激活架构在AI领域的革命性应用，特别是DeepSeek公司如何通过混合专家模型（MoE）和强化学习技术，显著提升推理效率并降低成本。文章还分析...

AI快讯

2个月前

DeepSeek 发布的开源模型 DeepSeek-R1 在 SWE-bench Verified 测试中表现卓越，甚至超越 OpenAI 的 o1 正式版。本文探讨了 SWE-RL 强化学习技术如何提升 Llam...

AI快讯

2个月前

DeepSeek发布的DeepSeek-R1开源模型在GPQA Diamond等复杂推理测试中表现优异，接近甚至超越闭源模型。本文探讨了DeepSeek-R1的技术创新、量化模型的表现及其...

AI快讯

2个月前

DeepSeek发布了开源模型DeepSeek-R1，该模型在多个测试中表现与OpenAI的o1正式版接近甚至超越。AI业界热议开源模型可能改变大模型竞争格局，Meta首席AI科学家...

AI快讯

2个月前

本文探讨了Kimi与DeepSeek-R1强推理模型的技术突破、应用场景及未来发展方向，重点分析了强化学习在提升模型推理能力中的作用，并展望了多模态拓展与商业化机...

AI快讯

2个月前