START(Self-Taught Reasoner with Tools)是一种创新型大型语言模型,通过整合外部工具(如 Python 解释器)提升其推理能力。它采用“Hint-infer”和“Hint-RFT”技术,自学如何更有效地使用这些工具,从而在科学问答、数学问题解决和代码生成等任务中表现出色。特别是在博士级科学问答 GPQA 和竞赛级数学基准测试中表现优异,成绩达到或超过现有开源模型的最新水平。
Phi-4 是 Microsoft 推出的一款小型语言模型,拥有 140 亿参数,特别擅长复杂推理和数学问题解决。它的核心优势包括卓越的数学推理能力,这得益于高质量的合成数据集和创新的后训练技术。Phi-4 在训练过程中战略性地引入了合成数据,通过多代理提示、自我修正工作流和指令反转等技术生成,显著增强了模型的推理和问题解决能力。尽管在推理方面仍有提升空间,未来开发者预计会进一步优化和量化它,目标是实现个人电脑和笔记本电脑上的本地运行。
QwQ-32B-Demo是Hugging Face平台上的一个交互式演示,基于QwQ-32B模型,专注于推理和问题解决任务,特别是在数学和编码领域表现优异。该演示提供了一个用户友好的文本输入界面,允许用户与模型互动,探索其强大的推理能力。QwQ-32B模型拥有32亿个参数,基于Transformer架构,支持长达131,072个token的上下文长度,并采用预训练、监督微调和强化学习等训练方法。
讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型,具备跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。该模型支持多模态能力,涵盖语言理解、知识问答、逻辑推理、数学问题解决、代码理解与编写等多种功能,适用于多种场景。
通義千問(Tongyi Qianwen),也稱為Qwen,是一系列由阿里巴巴雲開發的大型語言模型。該項目旨在提供智能且自然的語言互動,支援中文和英文,類似於ChatGPT。它集成於阿里巴巴的各種業務功能,並為客戶和開發者提供定制和部署的機會,促進AI應用的開發。通義千問系列包括多個專門模型,如Qwen 2.5、Qwen2.5-Max、Qwen2.5-Coder、Qwen2.5-Math、Qwen-VL、Qwen-Audio等,涵蓋自然語言處理、編碼輔助、數學問題解決、視覺和音頻分析等多個領域。
Qwen2.5 是由阿里巴巴云的 Qwen 团队开发的大型语言模型系列,涵盖从 0.5B 到 72B 的多种尺寸。该系列包括通用语言模型、编程模型 Qwen2.5-Coder 和数学模型 Qwen2.5-Math,适用于从终端设备到企业级系统的广泛应用。Qwen2.5 在多语言支持(超过 29 种语言)、长上下文处理(高达 128K 令牌)和多种运行框架兼容性方面表现出色。
Atom of Thoughts (AoT) 是一种新的推理框架,通过将复杂问题分解为原子问题来增强大语言模型的推理能力。该框架显著提高了推理效率,支持多种推理场景,如数学问题、选择题和多跳问答,并在 HotpotQA 等基准测试中表现出色,使 GPT-4o-mini 等模型性能提升 3.4%。AoT 还通过将问题分解为有向无环图(DAG)并迭代压缩子问题,简化推理过程,降低计算成本,同时保持解决方案的质量。
混元Large是一个总参数量达到389B,激活参数量为52B的大规模语言模型,支持256K的上下文长度。在常识理解、推理任务和传统NLP任务中表现优异,尤其在数学能力方面,在GSM8K和MATH数据集上表现突出。
QuestionAI 是一个强大的在线作业助手平台,旨在通过简化学习过程来提升学习体验。用户可以通过拍照解决数学问题,获得各学科复杂问题的简洁解决方案。无论是学生还是专业人士,QuestionAI 都能有效帮助他们应对作业和学习需求。
AssignmentGPT 是一个多功能平台,提供作业帮助、数学问题解决、图片上传获取答案、AI 图表创建、考试准备、面试练习和学生专属的教师机器人等服务。
MyMathSolver.ai 是一款由 Math GPT 驱动的 AI 数学求解器,提供免费的在线访问,能够解决复杂的数学问题和文字题,确保提供详细的逐步解决方案,促进互动学习。
PRM800K是一个用于训练过程监督奖励模型(PRM)的数据集,旨在提高大型语言模型在复杂推理任务中的准确性,尤其是在数学问题上。该数据集包含800K个步进级标签,覆盖12K个问题的75K个解决方案,使用主动学习技术选择最具信息量的数据样本进行人工注释,从而提供细粒度反馈,通过评估中间推理步骤来改进结果,最终提高解决率,从42.5%提升到78%在MATH数据集子集上。
该模型在全球首届 AI 数学奥林匹克竞赛(AIMO)获得了第一名,开源,可以在本地电脑上直接跑。它是基于 deepseek-math-7b-base 的微调版本,经过两阶段微调以达到排行榜获胜解决方案,并使用思路链 CoT 提示进行模板化,同时采用 MSFT 的 ToRA 格式进行 GPT4 输出并执行代码,具备与 Transformers 集成的能力。
卡内基梅隆大学团队在首届AI数学奥林匹克竞赛(AIMO)中获得亚军的开源项目,包含完整的训练数据集(AIME、AMC、Odyssey-Math)、验证集、模型微调代码和数据收集脚本,为研究AI解决数学问题提供了宝贵资源
用蒙特卡洛树搜索与大型语言模型结合解决数学问题的演示项目,就像给AI装上了解题的“指南针”,让它能更高效地找到解题路径
DeepSeek-R1是一个通过强化学习训练的671B参数推理模型,旨在在数学、代码和推理任务上与OpenAI-o1实现相当的性能。它基于Llama和Qwen蒸馏的六个稠密模型,支持32K上下文窗口与多模态扩展。在GSM8K数学推理测试中准确率达92.3%,在1.2TB代码数据上预训练,程序生成准确率提升27%。通过RLHF与宪法AI技术实现可控输出,表现出色,尤其在数学、编程和推理任务上。
AssignmentGPT 是一个多功能平台,提供作业帮助、数学问题解决、图像上传求解、AI 制图、考试准备、面试练习以及教师机器人等功能,旨在帮助学生提高学习效率。
Homework Wizard 是一款提供逐步解决方案、解释和示例的作业助手应用,适用于任何学科,帮助学生理解并完成作业。
Astra AI 是一款基于 GPT-4 Turbo 的个人数学辅导工具,旨在让复杂的数学概念变得易于理解和负担得起。它为用户提供逐步指导,帮助他们克服数学挑战,已有超过 20,000 名满意的学习者。
PastaGPT是一个基于GPT-4的AI聊天机器人,旨在为意大利用户提供独特的互动体验,具备即时响应能力,适用于多个领域的支持和指导。