为了提高LLM的演绎推理能力并确保推理过程的可信度,我们提出了一种基于自然语言的循序渐进的推理验证过程,并使用自然程序格式。
该项目主要聚焦于推理任务,提供一个大型AI模型或基础模型的资源列表,旨在为研究人员和开发者提供丰富的推理模型选择及相关信息。
Reasoning Gym是一个用于训练推理模型的Python库,能够生成无限多的推理任务,旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集,易于集成和扩展,以满足研究和开发的需求。
GPT-4和PaLM-2等大语言模型在数学推理问题上取得显著进展,尤其是GPT-4代码解释器在挑战性数学数据集上表现优异。
LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长期交互任务中的推理表现。