轻量级语言模型

Phi-3.5-mini-instruct (128k)模型 – 轻量级高效指令生成模型

Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型，属于Phi-3系列。该模型专注于指令生成任务，具有3.8亿参数，支持128K超长上下文，训练数据达3.4T tokens。采用密集解码器-only Transformer架构，在512张H100-80G GPU上训练10天完成。支持22种语言，在推理任务上表现接近GPT-4水平，特别适合资源受限或延迟敏感的应用场景，如移动端部署和边缘计算。

多语言支持指令生成模型移动端部署轻量级语言模型

Qwen_0.5b__GRPO模型 – 数学推理强化学习模型

Qwen_0.5b__GRPO是基于阿里巴巴云Qwen-0.5b轻量级语言模型的数学推理专项优化项目，采用强化学习算法GRPO（Group Relative Policy Optimization）进行训练。该项目针对gsm8k数学数据集优化，支持vllm加速推理，显著提升数学问题解决的准确率和训练效率。作为仅494M参数的小规模模型，它能在资源受限环境中高效运行，特别适合生成数学问题的分步推理过程和最终答案，是教育及研究场景的理想轻量化工具。

gsm8k数学数据集优化低资源环境部署教育辅助工具数学推理强化学习模型

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。