headinfer 是一个通过将 KV-cache 卸载到系统内存来实现高效长上下文推理的项目。它支持高达 4M 长度的上下文推理,显著提升了推理性能,特别适用于处理超长上下文的场景。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型