强化学习 | 第 4 页

DeepSeek-R1：AI推理模型的新标杆，AIME 2024中的卓越表现

DeepSeek-R1 是由中国杭州深度求索公司开发的高性能AI推理模型，专注于数学、代码和自然语言推理任务。该模型通过强化学习技术进行训练，并在AIME 2024等基准...

AI快讯

2个月前

本文深入探讨了监督微调（SFT）在大型语言模型（LLM）中的应用及其与强化学习（RL）的结合。通过分析DeepSeek R1的技术研讨，我们揭示了SFT如何提升模型的可...

AI快讯

2个月前

本文回顾了大型语言模型（LLM）从2017年Transformer架构的引入到2025年DeepSeek-R1的演变历程。文章探讨了LLM的关键技术突破，包括自注意力机制、生成能力、...

AI快讯

2个月前

DeepSeek-R1 是由中国深度求索公司开发的高性能AI推理模型，专注于数学、代码和自然语言推理任务。通过强化学习技术，该模型在多个基准测试中表现出色，性能...

AI快讯

2个月前

本文探讨了强化学习（RL）在大型语言模型（LLM）中的应用，特别是DeepSeek R1模型的研究进展。通过结合监督微调（SFT）和RL，模型在可验证任务中表现出色，但...

AI快讯

2个月前

Hugging Face组织的DeepSeek R1深度技术研讨揭示了强化学习在大型语言模型中的突破性应用。通过结合监督微调和GRPO算法，DeepSeek R1实现了高效的模型优化与...

AI快讯

2个月前

DeepSeek-R1 是一款由中国杭州深度求索公司开发的高性能AI推理模型，专注于数学、代码和自然语言推理任务。该模型通过强化学习和多阶段训练技术实现高效推理...

AI快讯

2个月前

DeepSeek-R1 是由中国杭州深度求索公司开发的一款高性能AI推理模型，专注于数学、代码和自然语言推理任务。该模型通过强化学习技术进行训练，并在多个基准测...

AI快讯

2个月前

DeepSeek R1-Zero模型通过强化学习和大规模预训练，展示了卓越的推理能力，无需依赖有监督微调。其创新架构和高效训练方法为AI领域带来了革命性突破，尤其在...

AI快讯

2个月前

本文深入探讨了AI智能体开发框架的核心概念，重点介绍了Semantic Kernel在视觉理解领域的创新应用。文章还对比了五种主流开发框架，并提供了选择框架时的关键...

AI快讯

2个月前