iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
一个用于评估大语言模型在数字猜谜游戏中表现的测试框架,支持多个LLM提供商,提供全面的性能指标分析和可视化结果,测试模型的推理能力和上下文记忆能力,包含成功率、格式合规性和效率等多维度评估
这是最大的约 100 万个数学竞赛问题解决方案对的集合,难度从初级挑战赛到数学奥林匹克预选赛不等。
EMMA是一个增强型多模态推理基准测试,用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力,帮助研究者发现模型在复杂多模态任务中的局限性。
MathPile是一个多样化且高质量的以数学为中心的语料库,包含约95亿个tokens,数据来源广泛,适用于教育和研究。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
旨在促进能在IMO竞赛中赢得金牌的开放共享AI模型诞生的比赛,设立于2023年11月。
owlet是一种专注于三元逻辑运算的编程语言,旨在提供简洁易用的语法和高效的编译器,同时兼容现有的编程语言,助力开发者进行复杂的数学计算和逻辑推理。