DeepSeek-R1-GGUF官网 – 高效推理量化项目
DeepSeek-R1-GGUF是一个专为160GB VRAM设计的快速推理量化项目,支持动态量化版本,模型大小从131GB到212GB不等。该项目在160GB VRAM环境下能够实现每秒约140个令牌的吞吐量,而在单用户推断场景下,每秒可处理14个令牌。此外,该项目无需VRAM(GPU)即可运行,仅需20GB RAM(CPU),适合在资源有限的情况下进行推理,尽管速度可能较慢。建议在VRAM + RAM总和至少为80GB+的环境下使用以获得最佳性能。