ReSearch 是一个开源项目,通过强化学习将搜索操作整合到大型语言模型(LLMs)的推理过程中,使其能够通过搜索工具更有效地回答问题。该项目通过强化学习训练LLM,使其在无监督数据的情况下学会何时以及如何调用搜索工具。基于Qwen2.5-7B模型,从零开始训练,展现了强大的泛化能力,并在HotpotQA等数据集上验证,性能显著提升。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型