GemLite是一个简单且高效的低比特矩阵乘法CUDA库,专为量化权重的GEMV操作设计。它易于阅读和定制,支持多种实现方法和激活类型,并且兼容较旧的GPU硬件。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型