开源语音处理项目

Ichigo Llama 3.1官网 – 开源的多语言语音处理项目

Ichigo Llama 3.1是一个开源的Llama语音项目，类似于OpenAI的语音模式，经过50K小时的语音训练，支持7种语言，能够进行实时语音AI处理，并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练，旨在提供高效、准确的语音识别与生成能力。

多语言支持实时语音识别开源语音处理项目智能应用

S.A.T.U.R.D.A.Y开源项目 – 实时音频处理与AI工具箱

S.A.T.U.R.D.A.Y开源项目 – 实时音频处理与AI工具箱

S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱，基于Pion、whisper.cpp和Coqui TTS构建。

WebRTC音频通信实时音频处理工具文本到语音转换语音助手开发

UI-Act开源项目 – 自然与计算机的图形界面交互

UI-Act开源项目 – 自然与计算机的图形界面交互

UI-Act 是一个基于 Transformer 模型的系统，旨在通过图形用户界面与计算机进行自然交互。其设计目的是为了无缝集成到人机工作流中，模型能够利用专家的人工演示进行训练，从而提升操作的自动化与智能化水平。

人机交互基于Transformer的交互系统智能助手自动化工具

Salad – GPU Cloud-高效智能GPU云平台

Salad 是一个提供超过10,000个GPU的云平台，专为生成式AI设计。它允许用户节省高达90%的云计算费用，并轻松部署AI/ML生产模型。用户可以通过注册账户、选择资源、容器化应用程序，Salad将管理其余的操作。

AI/ML模型部署GPU云平台云计算费用节省图像生成

ChatGLM2-6B开源项目 – 强大的中英双语对话模型

ChatGLM2-6B开源项目 – 强大的中英双语对话模型

开源中英双语对话模型 ChatGLM-6B 的第二代版本，拥有更强大的性能、更长的上下文、更高效的推理和更开放的协议。

中英双语对话模型客户服务自动化智能助手开发自然语言处理研究

MobileCPM开源项目 – 移动应用中集成大型语言模型的工具集

MobileCPM开源项目 – 移动应用中集成大型语言模型的工具集

MobileCPM是一个旨在帮助开发者将大型语言模型无缝集成到移动应用中的工具集，能够实现多种用例的本地模型能力，支持在移动设备上运行并提供多种功能，简化了开发者的集成过程。

个性化推荐系统移动应用集成大型语言模型聊天机器人开发自然语言处理工具

Whisper开源项目 – OpenAI的语音识别模型

Whisper开源项目 – OpenAI的语音识别模型

Whisper是OpenAI推出的强大语音识别模型，支持多语言语音转文本，能够高精度地识别口语、方言，并自动生成字幕。它采用Transformer架构，具备强大的抗噪能力，适用于视频字幕生成、语音助手、会议记录等场景。Whisper支持99种语言的语音-文本转换，在低资源语种识别任务中WER降低至7.3%，流式处理架构实现200ms端到端延迟，自监督预训练机制减少对标注数据的依赖。

多语言支持实时转写本地部署语音助手

AudioCraft官网 – 音频类生成式AI，已开源

AudioCraft是一个音频类生成式AI项目，由MusicGen、AudioGen和EnCodec三种模型组成，支持多种音频处理任务，具有强大的音频生成能力，并且是一个开源项目。

开源音频处理工具音频合成音频生成AI音频编码解码

Speechki官网 – AI真实语音生成器

Speechki是一个AI驱动的语音生成和文本转语音解决方案，用户可以通过它将任何文本转换为高质量的音频内容，支持1100多种声音和80多种语言。

AI驱动的语音生成器TikTok视频制作YouTube视频制作内容创作

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3