vllm-ascend是一个开源插件,旨在让大模型在Ascend芯片上高效运行,支持多种主流大模型架构如Transformer和MoE。该项目不断优化性能,显著提升推理速度,并由社区持续维护与改进。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型