Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
基于TensorRT实现的Streaming-LLM技术,旨在支持LLM模型进行无限输入长度的推理,提供高效、实时的AI服务。
fastllm是一个纯C++开发的全平台大模型加速库,具有无第三方依赖的特性,当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度,并且能够在安卓设备上流畅运行ChatGLM-6B,同时支持CUDA进行计算加速。
ChattyUI是一个开源且功能丰富的界面,类似于Gemini和ChatGPT,可以在浏览器中使用WebGPU本地运行开源模型(如Gemma、Mistral、LLama3等)。该项目不需要服务器端处理,确保您的数据始终保留在个人电脑上。
BGE-M3-Model-Converter是一个专门用于手动转换BGE-M3模型的工具,能够有效保留训练变量,并且用户可以直接控制模型的输出,从而满足不同应用场景的需求。
Stable Video Diffusion 是一个可以本地部署的视频生成模型,旨在通过先进的生成技术创建高质量视频内容。该项目基于生成对抗网络(GAN)技术,支持多种输入格式,能够生成多样化的视频内容,并集成了多种预训练模型,便于用户快速上手。
Cliptics 是一个在线文本转语音服务,可以将文本转换为自然流畅的语音,提供无缝的用户体验。用户只需输入文本,选择语音,然后点击“生成语音”按钮即可将文本转换为语音。同时,用户可以根据个人喜好自定义语言和口音。
基于微博开源的Rill Flow项目,旨在搭建大模型应用的技术平台,支持多种大模型的集成与管理,提供用户友好的界面用于模型训练和推理,兼容多种数据源与格式,支持分布式计算以提高模型训练效率,并具有丰富的监控与日志功能。
该项目汇集了精选的扩散模型推理论文,涵盖了多种技术,包括采样、缓存以及多GPU支持,为研究者和开发者提供了丰富的学习和应用资源。
Hugging Face Transformers 是一个广泛使用的开源NLP框架,专注于大规模预训练语言模型的实现与部署。它支持BERT、GPT-3、T5等数百种顶级模型,涵盖文本分类、情感分析、命名实体识别等多种NLP任务,并支持多模态任务。该库提供简洁的API接口,便于快速加载、微调和优化模型,适用于学术研究与工业应用,社区驱动更新迅速,是自然语言处理领域的重要工具。
一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
Optimum-NVIDIA将NVIDIA平台与Hugging Face结合,提供卓越的推理性能,通过简单的代码修改,使LLaMA 2模型达到每秒1,200个token的处理速度,比其他框架快28倍。
一种用于加速扩散模型采样的简单早退框架,主要功能是显著加速生成样本的过程而不牺牲生成样本的质量。
一个自托管的 GitHub Copilot,GitHub Copilot 的开源/本地替代方案,旨在提供灵活的开发体验。它可以在本地运行,无需依赖外部数据库或云服务,同时具备可视化界面和强大的API接口,方便集成到现有开发环境中。
eigenGPT是一个基于C++的高效实现,旨在提供简化的GPT2架构,易于理解和扩展,适合嵌入式系统和资源受限环境。
LLaMA_MPS是一个专门为Apple Silicon GPU优化的项目,旨在高效地运行LLaMA模型的推理过程。该项目充分利用苹果硬件的加速能力,提供简洁的API接口,优化内存管理,确保用户能够快速高效地进行自然语言处理任务。
TokenLimits是一个网站,允许用户探索不同AI模型的令牌限制。它提供关于各种AI模型的最大令牌、字符和单词数量的信息,帮助用户了解在不同文本模型(如ChatGPT Plus、GPT-4、GPT-3.5-Turbo、GPT-3和Codex)中可以输入的内容限制。此外,该网站还提供图像提示模型(如Stable Diffusion)和嵌入模型(如Ada-002)的令牌限制。