MoE-Infinity 是一个专为 Mixture-of-Experts (MoE) 模型的推理和服务而设计的 PyTorch 库,具有低成本、高性能和易于使用的特点。它通过专家模块内存卸载和优化技术,显著降低了显存占用和推理延迟,同时兼容 HuggingFace 模型,能够无缝对接主流大型语言模型 (LLM)。
Lookahead decoding是一种创新的并行解码算法,加速大LLM的推理过程,提升模型生成文本的速度,适用于需要快速回应的应用。
MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
Lightspeed是一个开源的CLI工具和Colab环境,旨在解决OpenAI GPT-4 API的常见问题,如API错误和响应缓慢,提供高达每秒133个tokens的处理速度,确保程序的稳定性和效率。
CuServly 是一个用户友好的平台,允许用户在短短三次点击内创建和训练自己的自然语言聊天机器人。该平台旨在帮助企业提高客户支持效率,聊天机器人能够轻松回答客户的各种问题,提升客户满意度。
DeepSeek-R1 是一个在 Hugging Face 上发布的大型模型,具有强大的性能表现,能够全面与 OpenAI-o1 竞争。该模型参数量达到685B,支持 BF16 和 int4 量化,并包含蒸馏模型 DeepSeek-R1-Distill-Qwen-32B。它适用于自然语言处理任务,能够进行文本生成和理解,同时也可用于模型评测和比较。
Jax GPT是对Karpathy的nanoGPT的重写,基于Jax和Flax框架构建,旨在提供高效的文本生成能力,支持快速训练和推理,具有易于扩展和修改的架构,能够充分利用高性能的并行计算。
StableLM是Stability AI最新开源的大语言模型,目前开放的是3B和7B的版本,后续会开放更大规模的模型,适合商用。