FireRedASR是小红书开源的最新语音识别模型,擅长识别中英文、方言及歌词。该模型在公共普通话ASR基准测试中达到了新的最佳水平,提供了两种架构设计:LLM版和AED版。LLM版具有8.3B参数,支持高识别准确率和无缝的端到端语音交互;AED版具有1.1B参数,平衡了性能和效率。
可本地部署的AI语音工具箱,提供语音识别、语音转写、语音转换等功能,支持音频处理、数据集创建和模型训练,适用于音频文件到理想语音模型的转换。
用于标注语音数据集的实用脚本套件,旨在为基于语音的人工智能模型(如文本到语音引擎)开发过程中所需要的音频变换(或注释)提供简洁、干净的代码库
macOS的命令行语音识别工具,让你的电脑能听懂你说的话,轻松转录音频文件或实时语音输入
ClearCypherAI是一家美国的AI初创公司,专注于生成音频解决方案和数据集。该公司提供尖端的AI技术,包括文本转音频转换、音频转文本转录和音频间的交流。其使命是提供驱动AI的多语言、多模式和实时语音智能。
Supervised是一个平台,允许用户使用OpenAI的GPT引擎构建监督型大语言模型(LLMs)。它提供用户友好的界面,支持使用自定义数据来微调AI模型。用户还可以通过Supervised API部署、变现和集成他们的模型。
So-vits-svc(也称Sovits)是一款基于VITS、soft-vc、VISinger2等技术的开源免费AI语音转换软件。它能够快速学习目标声音特征,实现高质量的语音克隆与变声,适用于多种场景如AI配音、虚拟主播、音乐翻唱等。
Revocalize AI是一个专业级AI语音生成工具包,允许用户创建自定义AI声音或使用官方授权的AI语音模型,在几秒钟内生成超真实的声音。它利用专有的语音合成技术捕捉声音的独特谐波,将任何输入声音转变为另一种声音,类似于为声音使用Photoshop。
Kits AI是一个为音乐创作者提供的AI声音生成和免费训练平台,用户可以使用我们的授权音库或免版税声音库中的AI艺术家声音来改变自己的声音,或者通过一键RVC v2模型训练从零开始创建、训练并分享自己的AI声音。同时也支持上传现有的.pth文件到RVC v1或v2模型进行高质量推理与模型共享。
Fish Audio Preprocessor 是一组用于音频处理的脚本,功能包括将视频/音频转换为wav格式、音频声音分离、自动音频切片、音频音量匹配、音频数据统计和音频重采样,旨在提升音频处理的效率和便捷性。
Ai Note是一个出色的AI写作平台,能够生成既美观又符合搜索引擎优化的内容。用户只需描述内容主题并根据需要调整设置,输入一些基本信息或关键词,AI算法便能自动生成所需内容,用户可以轻松查看、编辑或导出结果。
Transcribe Live 是一个快速的工具,能够将音频转换为书面文本,适用于会议、讲座、播客或外语学习。它还可以对音频文件进行总结,便于用户获取关键信息。
SummyMonkey是一款在工作和学习中极具变革性的工具,能够高效进行邮件摘要、内容总结和数据提取,节省时间。其聊天功能提供更深入的洞察,使其成为一个多语言、智能的伴侣,带来变革性的体验。
aiwriter.fi是一个使用先进的OpenAI人工智能技术生成各种文本内容的平台,支持33种语言,能够生成文章、博客、广告等,还能利用DALL-E生成AI图像。
AI Writa是一款强大的AI写作和文本生成工具,用户可以轻松创建引人入胜的内容,同时高效管理图像API,节省宝贵的时间和精力。
Whisper API是一个强大的AI驱动的转录工具,利用OpenAI的Whisper模型,为音频文件提供准确可靠的转录服务。用户可以轻松地将Whisper的转录功能集成到他们的应用、服务或工作流程中。
该项目集成了Firecrawl的OpenAI实时API控制台,支持实时交互和音频管理,适用于浏览器和Node.js环境,用户可以通过声音引导AI代理实时爬取和浏览网站内容。
VoiceLingo是一款iOS应用,允许用户将自己的声音转换为多种语言的音频。用户只需录音并选择目标语言,应用便会生成相应的音频输出,方便进行语言学习和交流。