Reasoning Gym是一个用于训练推理模型的Python库,能够生成无限多的推理任务,旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集,易于集成和扩展,以满足研究和开发的需求。
为了提高LLM的演绎推理能力并确保推理过程的可信度,我们提出了一种基于自然语言的循序渐进的推理验证过程,并使用自然程序格式。
GPT-4和PaLM-2等大语言模型在数学推理问题上取得显著进展,尤其是GPT-4代码解释器在挑战性数学数据集上表现优异。
DeepCausality是一个高效的因果推理库,支持在复杂的多阶段因果模型上进行快速和确定性的上下文感知因果推理。
一个强化学习项目,旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程,使得AI推理训练更加高效,且小模型也能表现出强大的推理能力。
该项目提供多种卫星和航空图像的数据集,支持深度学习模型的训练和评估,包含丰富的数据集信息和元数据,适用于不同的计算机视觉任务,如图像分类、目标检测等。
xCodeEval是一个大规模多语言多任务基准,用于评估代码理解、生成、翻译和检索的能力,旨在为研究和开发提供支持。
Coglayer是一个AI驱动的工具,作为思维过程的延伸,帮助用户更深入地探索思想、发现新洞察。它通过适应用户的思维模式,提供多层次的思维体验,促进创造力和理解力。
一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真实的人类偏好数据和可验证的正确性偏好数据。
Chat with Meta Llama 3是一个开放源代码的AI聊天模型,允许开发者自由定制,提供了在线演示,完全免费。
本项目研究了在机器学习中对柏拉图理想的表现形式,探讨了表现理论与柏拉图理想之间的关系。
ChiRho是一个基于Pyro概率编程语言的实验性语言,旨在支持因果推理,允许用户灵活地构建和推理复杂的因果模型,并与现有的Python生态系统无缝集成。
Bias-Bench是一个实证调查,旨在评估针对预训练语言模型的去偏见技术的有效性。它通过比较不同的去偏见方法,帮助研究人员理解这些技术在模型训练中的作用。该项目为研究人员提供了一个标准化的平台,以便对去偏见技术进行基准测试和性能评估。