R1-Searcher 是一个两阶段强化学习框架,旨在提升大型语言模型(LLM)的搜索能力。该框架通过结果导向的奖励机制工作,无需依赖过程奖励或知识蒸馏。研究表明,它允许 LLM 在推理过程中自主调用外部搜索系统,整合外部知识来解决知识密集型查询。在某些基准测试中,R1-Searcher 的表现显著优于现有的检索增强生成(RAG)方法,甚至与闭源模型(如 GPT-4o-mini)相当或更优。