AI音频工具 | 第 38 页

Retrieval-based-Voice-Conversion – 高效AI语音转换模型

RVC是一款高效的AI语音转换模型，能够学习目标人物的声音特征，并进行高质量的音色转换。它采用检索增强技术，使生成的语音更加接近真人，保留原有音色的细腻度与自然性。此外，RVC易于使用，基于VITS框架，支持多种声音风格转换，提供高质量的声音合成和用户友好的接口，同时具备较强的可扩展性，支持自定义模型。

0

可扩展性声音转换框架用户友好的接口预训练模型

JARVIS开源项目 – 个人AI语音助手

JARVIS是一个个人AI语音助手，能够实现语音转文字、生成语言模型回复和文字转语音功能，并通过Web界面进行展示。

0

Web界面展示个人AI语音助手文字转语音语言模型生成回复

XTalker开源项目 – 快速面部动画生成工具

XTalker是基于SadTalker的面部动画生成项目，专为第四代Xeon CPU优化，通过低精度推理和并行处理将推理速度提升10倍，旨在实现高效的面部动画生成。

0

实时视频应用游戏角色动画虚拟现实动画面部动画生成工具

SoniTranslate开源项目 – 视频同步翻译工具

SoniTranslate是一款能够实时将视频中的音频翻译成多种语言的工具，操作简单，支持多种视频格式，用户可以自定义翻译语言，并享受高准确率的翻译服务。

0

多语言翻译实时翻译用户友好界面视频同步翻译工具

ChatTTS-Forge开源项目 – 基于ChatTTS的文本到语音生成项目

ChatTTS-Forge是一个基于ChatTTS模型的文本到语音生成项目，具备API服务器和基于Gradio的WebUI，能够提供全面的API服务以及支持超长文本的生成能力，用户可选择多种语音风格并管理说话人。

0

API服务Gradio文本到语音生成语音风格选择

edge-tts开源项目 – 为电子书提供有声书服务

edge-tts是一个工具，能够将任何epub书籍转换为有声书，使用微软的Edge TTS引擎生成语音，支持多种语言和语音选项，用户可以自定义语速和音调，提供简单易用的命令行界面，帮助用户节省在Audible上的开支。

0

Edge TTS语音生成命令行界面工具电子书有声书转换工具自定义语速和音调

AudioNotes开源项目 – 音视频转结构化笔记工具

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的开源免费工具，能够快速提取音视频内容，并利用大模型能力将其整理成结构化的 Markdown 笔记。该工具支持多种音视频格式，提供 Docker 快速部署方式，并支持搭配 Ollama 使用本地模型，方便用户快速生成、编辑和分享笔记。

0

开源音频处理工具结构化笔记生成音视频转笔记工具

Hear开源项目 – 命令行语音识别工具

macOS的命令行语音识别工具，让你的电脑能听懂你说的话，轻松转录音频文件或实时语音输入

0

可定制识别参数命令行语音识别工具实时语音转录音频文件转录

Wordcab Transcribe开源项目 – 高效语音识别与说话人区分

Wordcab Transcribe是一个基于faster-whisper的ASR FastAPI服务器，利用多尺度自适应谱聚类技术实现说话人区分，提供高效、准确的语音转录服务。该项目支持实时处理，易于集成和扩展，适用于多种音频格式。

0

FastAPI集成实时转录自动化转录语音识别

Whisperboard开源项目 – 离线语音转文本的iOS应用

Whisperboard是一个基于OpenAI的Whisper模型开发的离线语音转文本iOS应用，利用whisper.cpp实现，能够高效地将语音转化为文本，支持多种语言，提供用户友好的界面和高准确率的语音识别。