强化学习 | 第 11 页

增量学习在工业智能中的应用与挑战

本文深入探讨增量学习在工业智能中的应用，结合案例和实践，分析其在设备管理、生产优化、异常检测等领域的重要性，同时探讨增量学习与自监督学习、强化学习...

AI快讯

2个月前

本文深入探讨了具身智能（Embodied AI）的入门资源，包括社区、Arxiv列表、文章集合、博客和课程，帮助读者快速了解机器人学习领域的最新动态和最佳实践。通...

AI快讯

2个月前

本文深入探讨具身智能（Embodied AI）的入门资源，重点介绍DeepTimber-地瓜机器人社群的相关内容，包括社区资源、Arxiv列表、博客和课程，并分享Meta的DINO项...

AI快讯

2个月前

TinyZero是由伯克利团队开发的低成本AI模型，复刻了DeepSeek-R1的部分性能，训练成本不到30美元。通过强化学习和知识蒸馏技术，TinyZero在简单数学任务和编程...

AI快讯

2个月前

本文深入探讨蒙特卡洛方法在风险管理和AI推理中的广泛应用。从量化风险分析到优化AI模型的推理能力，蒙特卡洛方法展现了其在复杂问题求解中的独特价值。文章...

AI快讯

2个月前

本文深入探讨了OpenAI在人工智能领域的最新进展，包括GPT-4.5的发布、OpenAI Gym强化学习平台的应用，以及OpenAI在自动驾驶、多模态模型和人工智能安全研究方...

AI快讯

2个月前

DeepSeek-R1通过强化学习直接优化大语言模型的推理能力，无需依赖监督微调，开创性地实现了自我验证、反思和生成长链推理的能力。这一突破为大语言模型的研究...

AI快讯

2个月前

本文深入探讨了长思维链（Long CoT）技术的核心创新，以Kimi-1.5为例，分析了其在长上下文扩展、多模态推理和强化学习中的突破性进展。通过long2short方法和...

AI快讯

2个月前

月之暗面发布的Kimi k1.5多模态模型在数学、代码和多模态推理能力上全面对标OpenAI的o1模型，并通过long2short方法、强化学习技术创新等显著提升了性能。本文...

AI快讯

2个月前

DeepSeek发布的DeepSeek-R1-Zero模型通过强化学习实现链式思维，推动国产AI算力卡的迭代与升级。该模型的成功部署不仅提升了AI推理能力，还为国产算力板块和...

AI快讯

2个月前