MoE-Infinity 是一个专为 Mixture-of-Experts (MoE) 模型的推理和服务而设计的 PyTorch 库,具有低成本、高性能和易于使用的特点。它通过专家模块内存卸载和优化技术,显著降低了显存占用和推理延迟,同时兼容 HuggingFace 模型,能够无缝对接主流大型语言模型 (LLM)。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型