Optimum-NVIDIA将NVIDIA平台与Hugging Face结合,提供卓越的推理性能,通过简单的代码修改,使LLaMA 2模型达到每秒1,200个token的处理速度,比其他框架快28倍。
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
一种提升LLM性能的全新方法,能够把单一的LLM变身为全能的指挥家,通过高层元提示指令拆分复杂任务并分配给专家模型。
从零开始构建自己的大型语言模型,提供详细教程和代码实现,覆盖编码、预训练和微调过程,适用于对自然语言处理和人工智能领域感兴趣的开发者和研究者