Podcastfy 是一个开源 Python 工具,能够将多模态内容(如文本、图片、网页、PDF、YouTube 视频等)转换为引人入胜的多语言音频对话。它利用生成式 AI 技术,支持从多种来源生成定制化的播客内容,适用于内容创作、教育、研究等多个领域。
MetaVoice-1B 是一个拥有1.2亿参数的文本转语音(TTS)模型,专注于生成情感丰富、节奏自然和音调准确的英语语音。它支持零样本克隆美国与英国口音,并支持跨语言的声线定制。模型基于100K小时的语音数据进行训练,支持任意长度文本的合成,并提供了丰富的API和Web UI供用户使用。项目采用Apache 2.0开源许可,用户可以无限制地使用。
ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型,目前支持英文和中文。它优化了对话场景的语音生成,能够生成自然流畅的语音输出,适用于多种对话系统和语音助手应用。
Spark-TTS 是一款基于 Qwen2.5 模型的高效文本转语音(TTS)系统,支持细粒度语音控制和零样本语音克隆。该系统在多个基准测试上超越现有 TTS 方法,结合 Qwen2.5 LLM 进行端到端生成,采用 BiCodec 编码简化架构并提升推理效率。Spark-TTS 支持中英双语,允许用户通过文本描述语音风格,生成全新的虚拟声音,并在零样本情况下克隆语音,生成高质量个性化声音。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
ChatTTS是专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,提供自然流畅的语音合成和多说话人的支持。
ChatTTS Me 是一个将文本转化为自然流畅语音的平台,适用于聊天机器人和虚拟助手,提供优化和富有表现力的对话体验。
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
LLaMA是Facebook研究开发的一款先进语言模型,旨在处理多种自然语言处理任务,声称在性能上优于GPT-3。它具备高质量文本生成能力,支持多种规模以满足不同的部署需求,同时采用高效的训练技术,能够先进地处理上下文信息。
该项目汇集了多个开源的中文预训练语言模型及其对应的指令数据集,旨在为中文自然语言处理提供丰富的资源。