数学问题生成工具

iGSM开源项目 – 生成小学数学问题数据集的工具

iGSM开源项目 – 生成小学数学问题数据集的工具

iGSM是一个用于生成小学数学问题数据集的工具，能够创建不同难度级别的数学问题，并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力，同时创建可用于教育和研究的数据集。

教育数据集数学推理能力分析数学问题生成工具语言模型评估

LLM Bulls and Cows Benchmark开源项目 – 评估大语言模型的数字猜谜能力

LLM Bulls and Cows Benchmark开源项目 – 评估大语言模型的数字猜谜能力

一个用于评估大语言模型在数字猜谜游戏中表现的测试框架，支持多个LLM提供商，提供全面的性能指标分析和可视化结果，测试模型的推理能力和上下文记忆能力，包含成功率、格式合规性和效率等多维度评估

LLM性能评测上下文记忆能力性能指标分析数字猜谜游戏

NuminaMath官网 – 数学竞赛问题解决方案的集合

这是最大的约 100 万个数学竞赛问题解决方案对的集合，难度从初级挑战赛到数学奥林匹克预选赛不等。

AI模型训练教育辅助工具数学推理能力提升数学研究与开发

EMMA开源项目 – 增强型多模态推理基准测试

EMMA开源项目 – 增强型多模态推理基准测试

EMMA是一个增强型多模态推理基准测试，用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力，帮助研究者发现模型在复杂多模态任务中的局限性。

增强型多模态推理基准测试多模态语言模型评估数学物理化学编程推理模型局限性分析

MathPile开源项目 – 一个以数学为中心的高质量语料库

MathPile开源项目 – 一个以数学为中心的高质量语料库

MathPile是一个多样化且高质量的以数学为中心的语料库，包含约95亿个tokens，数据来源广泛，适用于教育和研究。

教育资源数学语料库模型训练自然语言处理

LightEval开源项目 – 轻量级的LLM评估工具

LightEval开源项目 – 轻量级的LLM评估工具

LightEval是一个轻量级的LLM评估套件，Hugging Face在内部使用，并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。

Hugging FaceLLM评估工具模型性能评估轻量级工具

AI数学奥林匹克竞赛（AIMO）官网 – 促进AI模型在数学竞赛中的应用

旨在促进能在IMO竞赛中赢得金牌的开放共享AI模型诞生的比赛，设立于2023年11月。

AI数学竞赛Python代码验证开放共享AI模型数学推理

owlet开源项目 – 三元计算编程语言

owlet开源项目 – 三元计算编程语言

owlet是一种专注于三元逻辑运算的编程语言，旨在提供简洁易用的语法和高效的编译器，同时兼容现有的编程语言，助力开发者进行复杂的数学计算和逻辑推理。

三元计算编程语言数学计算新型算法逻辑推理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3