Satori模型 – 增强推理能力的7B参数大模型
Satori是一个基于Qwen-2.5-Math-7B的7B参数大型语言模型,通过Chain-of-Action-Thought (COAT)推理机制和Reinforcement Learning with Autoregressive Search (RAE)策略提升模型的自主推理能力。该项目专注于数学推理和跨领域任务,在GSM8K、MATH500等数学推理基准测试中达到最新水平,并能推广到逻辑推理、常识推理和表格推理等任务。模型和数据可在Huggingface平台获取,代码预计未来几周发布。