强化学习 | 第 3 页

测试时扩展：提升语言模型推理性能的新方法

本文探讨了一种简单且资源高效的测试时扩展方法，通过“预算强制”策略控制推理过程中的计算资源，显著提升语言模型的推理性能。研究在s1K数据集上验证了该方法...

AI快讯

2个月前

本文深入探讨了DeepSeek R1大模型的技术创新和应用前景。通过优化Transformer架构、采用强化学习和混合精度计算，DeepSeek R1在推理能力、能耗效率和场景应用...

AI快讯

2个月前

本文深入探讨了DeepSeek-R1模型的创新之处，包括其通过强化学习提升推理能力、开源策略对全球开发者的吸引力，以及在智能驾驶领域的商业化应用。文章还展望了...

AI快讯

2个月前

本文深入探讨了DeepSeek的Zero模式，这一完全基于强化学习的AI训练方法，无需监督数据，却展现出卓越的推理能力。文章详细解析了Zero模式的创新之处、技术原...

AI快讯

2个月前

本文探讨了DeepSeek-R1与OpenAI-o1在AI领域的竞争与创新。DeepSeek通过强化学习技术提升性能，以低廉定价和开源策略引发全球关注。文章还分析了国产算力的结...

AI快讯

2个月前

本文深入探讨了GRPO算法在大语言模型中的应用，特别是其在数独求解任务中的表现。文章还分析了元强化学习在优化测试时计算中的潜力，揭示了GRPO算法在复杂推...

AI快讯

2个月前

DeepSeek-V3作为中国AI领域的创新代表，凭借其低训练成本、高性能以及开源策略，迅速在全球AI产业中引发关注。本文将深入探讨DeepSeek-V3的技术亮点、开源策...

AI快讯

2个月前

DeepSeek-R1是由中国杭州深度求索公司开发的高性能AI推理模型，专注于数学、代码和自然语言推理任务。尽管在多个基准测试中表现出色，但在处理性别歧视等社会...

AI快讯

2个月前

DeepSeek-R1 是由中国杭州深度求索公司开发的高性能AI推理模型，专注于数学、代码和自然语言推理任务。通过强化学习技术训练，该模型在多个基准测试中表现出...

AI快讯

2个月前

本文探讨了强化学习从人类反馈（RLHF）到AI反馈（RLAIF）的演变，分析了其在提升大语言模型性能和可信度方面的关键作用。通过技术突破和实际案例，揭示了RLHF...

AI快讯

2个月前