AI音频工具 | 第 8 页

Kokoro Web官网 – 免费开源的AI语音生成器

Kokoro Web 是一个完全免费且开源的在线AI语音生成工具，利用人工智能技术将文本转换为语音。用户可以通过简单的操作，选择不同的语音选项，生成高质量的语音输出。

0

AI语音生成器开源项目文本转语音

QuickWhisper官网 – 本地音频视频转文字工具

QuickWhisper是一款基于OpenAI Whisper技术的转录工具，能够将音频和视频内容转换为文本。所有处理均在本地完成，确保数据隐私。用户只需提交音频或视频的URL，即可快速开始转录。

0

OpenAI Whisper数据隐私本地音频转文字视频转文字

VITS开源项目 – 高质量端到端语音合成模型

VITS是一款基于深度学习的端到端语音合成模型，结合了变分自回归推断(VAE)和Transformer架构，能够生成高自然度、接近人声的语音。它支持多语言、多说话人合成，并且能够实现语音风格控制，适用于语音助手、有声阅读和虚拟主播等场景。VITS2是其升级版，结合了自回归和非自回归的TTS技术，具备更高效的语音生成能力和更自然的音色表现。

0

AI语音助手文本转语音有声书配音虚拟主播

AudioKit官网 – 简化音乐分发的平台

AudioKit是一个为艺术家和开发者简化音乐分发的平台，利用强大的API和AI驱动工具来增强分发过程。它实现了与主要音乐分发平台和标签服务的无缝集成，使用户能够专注于他们的创作，同时有效地管理音乐的传播。

0

AI驱动工具API集成音乐分发平台

OmniSealBench开源项目 – 神经网络水印基准测试平台

OmniSealBench 是一个为神经网络水印技术提供全面基准测试的平台。它集成了多种数据集和评估指标，支持快速生成和检测水印，旨在精准衡量水印性能并显著提高效率。

0

基准测试平台开源项目神经网络水印

Conversion Prime官网 – AI驱动的内容重构工具

Conversion Prime 是一款基于人工智能的内容重构工具，能够将单一内容转化为多种高效格式，并针对不同平台进行优化。用户只需上传内容，选择目标格式，AI 即可生成适用于各平台的优化版本。

0

AI驱动的内容重构工具多平台内容优化自动化内容生成

PengChengStarling开源项目 – 多语言语音识别解决方案

PengChengStarling是基于icefall项目的多语言语音识别（ASR）模型，旨在一站式解决多语言语音识别难题。该项目支持多种语言，提供从数据处理到模型部署的完整流程，模型体积小且推理速度快，适用于多种应用场景。

0

ASR模型多语言语音识别微调推理

LiteASR开源项目 – 高效压缩语音识别模型

LiteASR是一种高效的自动语音识别压缩方案，旨在通过低秩近似等技术，显著减少Whisper模型的大小，同时保持甚至提升其识别精度。该方案支持多种硬件优化，能够适配从GPU到MacBook的多种设备，使得语音模型更加轻量化和快速。

0

Whisper模型优化硬件适配优化语音识别模型压缩

Mirtilla官网 – AI会议管理与分析

Mirtilla是一款先进的AI驱动会议管理与分析工具，提供会议转录、摘要生成和历史管理功能。用户可以通过上传会议录音，利用AI技术自动生成会议内容的文字转录和摘要，从而高效管理和分析会议讨论。

0

AI会议管理会议历史管理会议摘要生成会议转录

Speakify官网 – 免费AI文本转语音工具

Speakify是一个免费的文本转语音转换器，利用AI驱动的语音技术，将文本转换为多种语言的自然语音。用户只需输入文本，选择语言和语音，即可轻松生成语音。

0

AI语音技术免费工具文本转语音无障碍辅助

PopPop AI Text to Speech官网 – 免费在线文本转语音服务

PopPop AI Text to Speech 是一个免费的在线文本转语音服务，支持超过20种语言，能够将文本转换为逼真的语音音频。用户只需选择语音、输入文本、自定义设置，然后点击播放即可生成音频。

0

免费服务在线语音生成多语言支持文本转语音

VoiceRead官网 – 文字转语音助手

VoiceRead是一款Chrome浏览器扩展，允许用户选择网页上的文本，并使用多种流行的语音进行朗读。它支持来自社交媒体的语音，并支持多种语言，包括中文、英文和日文。用户只需选择文本，选择语音，然后点击播放即可听到文本被朗读。

0

Chrome扩展多语言支持文字转语音社交媒体语音

WiderAI官网 – AI驱动的英语口语练习平台

WiderAI是一个基于人工智能的平台，旨在通过模拟雅思考试和实时反馈帮助用户练习和提高英语口语能力。用户可以在任何时间、任何地点进行模拟口语测试，获得针对性的反馈，从而有效提升口语水平。

0

AI驱动的英语口语练习平台个性化学习体验实时反馈模拟雅思口语考试

AI Music Catalog官网 – AI音乐创作助手

AI Music Catalog 是首个基于AI技术的音乐数据库，旨在帮助用户发现音乐流派，并利用AI工具创作更好的歌曲。用户可以通过浏览不同音乐流派，选择自己喜欢的风格，并使用提供的AI工具进行个性化歌曲创作。

0

AI音乐创作个性化歌曲创作音乐流派发现

Songifier Song Identifier官网 – 通过歌词识别歌曲的AI工具

Songifier Song Identifier 是一款基于人工智能的工具，专门用于通过用户提供的歌词片段来识别歌曲。用户只需输入记忆中的几句歌词，AI便能快速匹配并找到对应的歌曲。该工具旨在帮助用户轻松找到那些仅记得部分歌词的歌曲，解决‘耳熟但记不起名字’的困扰。

0

人工智能音乐识别歌词匹配工具通过歌词识别歌曲的AI工具

DiffRhythm开源项目 – 基于扩散模型的端到端全曲生成工具

DiffRhythm是一款基于扩散模型的端到端全曲生成工具，旨在简化音乐创作流程并提高创作速度。作为首个开源的全曲生成模型，它能够生成长达4分45秒的完整歌曲，支持多种音乐风格，满足不同创作需求。此外，DiffRhythm还提供了Hugging Face空间演示，方便用户快速体验和测试模型。

0

Hugging Face空间演示基于扩散模型的音乐生成工具开源全曲生成模型

VoxNote官网 – AI电话助手，提升工作效率

VoxNote是一款基于AI技术的移动应用程序，旨在通过自动总结电话通话内容并生成待办事项列表来提升用户的工作效率，确保后续行动不会遗漏。它安全地记录通话内容，方便用户随时访问和分享。

0

AI电话助手分享通话摘要安全记录通话内容生成待办事项列表

Open-LLM-VTuber开源项目 – 智能虚拟主播对话系统

Open-LLM-VTuber 是一个结合 Live2D 和大型语言模型（LLM）的项目，通过快速免提语音交互、面部表情捕捉和长期记忆功能，实现自然流畅的对话体验。该项目支持跨平台本地运行，确保数据隐私，并能够记住之前的对话内容，提供个性化的互动体验。

0

Live2D大型语言模型虚拟主播对话系统跨平台本地运行

Voxcreo官网 – 文本转音频的平台

Voxcreo是一个将文本内容（如PDF和网页）转换为有声朗读音频的平台，用户可以将书面材料作为播客或有声书来收听。用户可以上传文本并在几秒钟内生成音频，自定义朗读声音，并将内容同步到播客应用程序中以便轻松收听。

0

播客生成教育材料转换文本转音频有声朗读

My Daily Pod官网 – 个性化音频播客平台

My Daily Pod 是一个由人工智能驱动的平台，能够根据用户选择的 YouTube 频道，生成个性化的音频播客，每日或按需提供视频内容的 5 分钟摘要。用户可以通过播客应用收听这些摘要，轻松获取最新内容。

0

AI生成音频播客YouTube内容摘要个性化音频摘要

Shamaze官网 – AI生成个性化睡前故事

Shamaze是一款AI驱动的应用程序，能够生成并以父母的声音讲述个性化的睡前故事，从而增强睡前例行活动的温馨感。用户可以通过下载Shamaze应用，选择故事偏好，然后聆听应用以他们的声音朗读故事。

0

AI生成故事个性化音频睡前故事应用

NotePlan AI Meeting Notes官网 – AI自动生成会议笔记

NotePlan AI Meeting Notes 是一款专为Google Meet设计的Chrome扩展工具，利用人工智能自动生成会议摘要和转录，旨在提升会议参与度和组织效率。用户只需安装扩展并加入Google Meet，AI便会自动记录会议内容，帮助用户专注于讨论而无需手动记录。

0

AI会议笔记Google Meet扩展实时转录自动会议摘要

hacker-news开源项目 – AI自动化Hacker News播客

hacker-news是一个基于AI的自动化播客项目，每天自动抓取Hacker News上的热门文章，通过智能算法生成中文总结，并利用Edge TTS技术将其转换为中文播客。用户可以通过网页或播客App收听每日更新的内容，同时还可以获取文章摘要和完整的播报文本。

0

AI自动化播客Edge TTS智能文章总结

Multilingual Speak Sync官网 – 实时多语言语音聊天室

Multilingual Speak Sync 是一个实时语音聊天室，支持多语言即时翻译，帮助用户跨越语言障碍，实现无缝交流。用户可以自由选择语言，系统会实时将语音翻译成其他参与者的语言。

0

国际会议交流多语言聊天室实时语音翻译

Story Palette官网 – AI驱动的创意故事生成器

Story Palette是一款创意应用，允许用户根据自己的偏好创作独特的故事。其AI技术能够生成引人入胜的叙事，提供语音旁述功能，并从文本中创建图像。通过这款应用，用户可以释放想象力，将故事变为现实。

0

AI生成故事多语言故事生成文本生成图像语音旁述

TajweedMate官网 – AI辅助的古兰经诵读规则学习工具

TajweedMate是一款基于人工智能的应用，旨在帮助用户掌握古兰经诵读的Tajweed规则。通过提供即时反馈和互动课程，用户可以有效地提高诵读技巧。

0

AI辅助古兰经诵读学习互动课程即时反馈录音对比

Layla Network AI官网 – AI与区块链结合的媒体认证平台

Layla Network AI是一个结合人工智能和区块链技术的平台，提供先进的深度伪造检测、文件分析和媒体认证服务。该平台支持实时多媒体分析，确保数字媒体的完整性，能够有效区分AI生成内容与人类创作内容，从而促进数字通信的透明度和信任度。

0

AI生成内容检测区块链技术媒体认证深度伪造检测

ZeroAudio官网 – 即时音频摘要与搜索

ZeroAudio提供即时音频摘要和可搜索的WhatsApp音频集成，帮助用户更轻松地管理长语音消息。用户只需将WhatsApp音频消息转发给ZeroAudio，即可获得其内容的简明摘要。

0

WhatsApp音频管理即时音频搜索音频摘要

Audio-Reasoner开源项目 – 首个音频深度推理大模型

Audio-Reasoner是首个支持原生深度推理的大规模音频语言模型，基于大规模音频链式思维数据（CoTA）进行训练，实现了音频领域的深度推理和结构化思维。

0

多模态理解音频深度推理模型音频语言模型

EgoLife开源项目 – 智能生活助手

EgoLife是一个由Meta Aria眼镜驱动的AI助手，旨在通过摄像头和传感器自动记录日程、习惯和任务，实时解析周围声音和动作，捕捉重要事件，并提供时间轴记忆库以便随时回溯生活片段。它结合了第一人称和第三人称视角的视频，支持长时间视频流分析，并提供连续视频字幕和长期记忆问答功能。

0

AI生活助手实时事件捕捉智能记忆系统视频分析