AudioCraft是一个开源工具,旨在满足生成音频的需求,包括音乐、音效和音频压缩。它利用先进的模型如MusicGen和AudioGen,以及EnCodec神经音频编解码器,将原始音频信号转换为高质量、可定制的音频输出,非常适合从文本输入创建独特的音景或增强现有音频文件。
Gling AI是一个专为YouTuber设计的AI视频编辑工具,利用人工智能和机器学习算法自动检测并删除录制视频和音频文件中的沉默和不佳片段。用户只需下载MacOS或Windows的桌面应用程序,上传原始视频或音频文件,Gling AI将自动转录内容并删除多余的沉默和不流畅的部分,最终可以导出为MP4、MP3或带有SRT格式字幕的文件。
HiDock H1是一款结合硬件和软件的音频底座,专为iPhone用户设计,能够实时记录通话和会议内容。它支持最长达4小时的录音,保证清晰无噪音的沟通,并提供高精度的文字转录。用户无需订阅服务,可以先使用后付款。
Audioatlas是一个革命性的音乐搜索引擎,利用先进的人工智能技术,拥有超过2亿首歌曲的全球数据库,致力于为用户寻找和许可完美音乐。
ChatChit AI是一个集智能对话、图像生成、语音转录、图像理解和媒体下载于一体的聊天助手,旨在提升WhatsApp的使用体验,帮助用户更高效地沟通和分享。
Cleanvoice AI是一款利用人工智能技术,专门用于清除音频录音中的填充词、口腔声音和口吃的工具。它通过多语言支持、音频改善和时间线导出等功能,提高用户的录音质量,节省编辑时间和精力。用户只需上传音频文件,AI算法便能自动处理,用户可以下载或导出清理后的结果。
Marevo是一款领先的AI写作工具和文本生成器,用户只需几次点击即可创建营销文案、社交媒体帖子、广告文案、SEO博客、标题等,能够在60秒内获取所需文本,显著加快内容创作过程。
Landr是一个在线音乐软件平台,为音乐人提供多种创意工具和资源。它集成了音乐母带处理、数字音乐发行、精选插件、免费音频样本包、协作工具和音乐推广等功能,帮助音乐人在一个平台上探索、创作、合作、母带处理、发行和推广他们的音乐。
Akool的AI Commerce Content Platform是一个为小企业和电商平台设计的全能解决方案,旨在创建个性化、专业质量的产品描述。该平台利用人工智能生成内容(AIGC),提供文本、图像、语音和视频格式的产品描述。用户只需在网站上注册账户,提供产品详情,并选择所需的描述格式,AI系统将生成引人入胜、准确且独特的内容,专门为用户的产品量身定制。
HitPaw Official是一个提供AI音频、视频和照片编辑工具的平台,用户可通过其多种功能进行创意表达和内容制作。该平台致力于简化编辑过程,提升作品质量,满足用户在视频、照片和音频处理上的多样需求。
这个项目允许您在不到15分钟的时间内,使用人工智能将任何视频翻译成任何语言,并确保完美的唇语同步。
Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
Kokoro 82M 是一个高质量的 TTS 模型,能够生成极高音频质量的语音,同时模型大小不到 300M,便于部署和使用。该模型在 T4 上能够快速生成语音,并支持通过架构训练其他语言,且只需不到 100 小时的音频数据进行训练。
该项目专注于使用先进的口语语言模型生成连贯的长篇语音,能够在多种应用场景中提供自然、流畅的语言输出。
由transformers.js提供支持的浏览器里100%客户端运行的实时音频转录,支持多种语言,易于集成到网页应用中。
音频基础模型:支持多语言音频理解的端侧部署工具,具备极低推理延迟,适用于语音识别、语种识别、语音情感识别和声学事件分类/检测
ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频,通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案,适用于多种应用场景。
Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
阿里AI项目DreamTalk开源,可让人物头像说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。
Text2Listen项目旨在让大语言模型能够理解人类语言,并做出合适的面部表情和动作,从而增强与用户的互动体验。该项目通过分析说话者的语音内容,生成对应的面部反应,并使用VQ-VAE技术对面部手势进行量化,确保生成的听众动作流畅且准确反映语言语义。此外,项目还将复杂的手势分解为简单的基础元素,从而提升聊天机器人的自然对话体验。
基于 PyTorch 的音乐生成和文本到语音(TTS)系统的实现,该系统使用基于 LLaMA 的大型语言模型(LLMs),并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型
超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。它不需要互联网连接或云服务支持。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
一种新型的文本到语音模型,通过文字描述生成高保真的语音,无需提前录制人声样本。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。
AI-ContentCraft是一款多功能的内容创作助手,能用AI快速生成故事、播客脚本和多媒体内容,让创作者轻松搞定创意内容。
CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM),它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。
这款开源(open-weight)的文本转音频模型可根据文本提示生成 44.1kHz 的高质量立体声音频。它非常适合合成逼真的声音和现场录音,可以运行在消费级 GPU 上,因此非常适合学术研究和艺术用途。
集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
openai-edge-tts 是一个开源免费的文本转语音 API,利用微软 Edge 的在线语音服务,能够生成多种语音选项和播放速度,用户无需付费即可体验高质量的文本转语音功能。