KTransformers开源项目 – 优化大型语言模型推理性能
KTransformers是由清华大学KVCache.AI团队与趋境科技联合开发的开源项目,专注于优化大型语言模型(LLM)的推理性能,特别是在资源受限的环境中高效运行LLM。该项目支持单GPU(24GB显存)或多GPU环境,支持DeepSeek-R1和V3的671B满血版模型,预处理速度最高可达286 tokens/s,推理生成速度最高可达14 tokens/s。KTransformers通过高级内核优化和放置/并行策略,提供高达3至28倍的加速效果,并支持Q4_K_M量化版本,最低仅需14GB显存和382GB内存。