DeepSeek-MoE 16B 是一个拥有16.4亿参数的混合专家(Mixture-of-Experts)语言模型,采用创新的MoE架构,包括细粒度专家分割和共享专家隔离策略。该模型在2万亿英语和中文token上训练,性能与DeepSeek 7B和LLaMA2 7B相当,但仅需约40%的计算量。项目提供了Base和Chat模型的检查点,支持在单GPU(40GB内存)上部署,无需量化。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型