标签:强化学习
DeepSeek-R1:AI推理模型的新标杆,AIME 2024中的卓越表现
DeepSeek-R1 是由中国杭州深度求索公司开发的高性能AI推理模型,专注于数学、代码和自然语言推理任务。该模型通过强化学习技术进行训练,并在AIME 2024等基准...
监督微调(SFT)在大型语言模型中的应用与挑战
本文深入探讨了监督微调(SFT)在大型语言模型(LLM)中的应用及其与强化学习(RL)的结合。通过分析DeepSeek R1的技术研讨,我们揭示了SFT如何提升模型的可...
大型语言模型的进化之路:从Transformer到DeepSeek-R1
本文回顾了大型语言模型(LLM)从2017年Transformer架构的引入到2025年DeepSeek-R1的演变历程。文章探讨了LLM的关键技术突破,包括自注意力机制、生成能力、...
DeepSeek-R1 与 o1-mini:AI 推理模型的巅峰对决
DeepSeek-R1 是由中国深度求索公司开发的高性能AI推理模型,专注于数学、代码和自然语言推理任务。通过强化学习技术,该模型在多个基准测试中表现出色,性能...
强化学习在大型语言模型中的应用与挑战
本文探讨了强化学习(RL)在大型语言模型(LLM)中的应用,特别是DeepSeek R1模型的研究进展。通过结合监督微调(SFT)和RL,模型在可验证任务中表现出色,但...
DeepSeek R1:强化学习与语言模型的革命性结合
Hugging Face组织的DeepSeek R1深度技术研讨揭示了强化学习在大型语言模型中的突破性应用。通过结合监督微调和GRPO算法,DeepSeek R1实现了高效的模型优化与...
DeepSeek-R1:高性能AI推理模型的革命性突破
DeepSeek-R1 是一款由中国杭州深度求索公司开发的高性能AI推理模型,专注于数学、代码和自然语言推理任务。该模型通过强化学习和多阶段训练技术实现高效推理...
DeepSeek-R1:中国AI模型的崛起与全球影响
DeepSeek-R1 是由中国杭州深度求索公司开发的一款高性能AI推理模型,专注于数学、代码和自然语言推理任务。该模型通过强化学习技术进行训练,并在多个基准测...
DeepSeek R1-Zero模型:AI推理能力的革命性突破
DeepSeek R1-Zero模型通过强化学习和大规模预训练,展示了卓越的推理能力,无需依赖有监督微调。其创新架构和高效训练方法为AI领域带来了革命性突破,尤其在...
AI智能体开发框架:从理论到实践
本文深入探讨了AI智能体开发框架的核心概念,重点介绍了Semantic Kernel在视觉理解领域的创新应用。文章还对比了五种主流开发框架,并提供了选择框架时的关键...