Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
voicechat2是一款快速且完全本地化的AI语音聊天工具,使用WebSockets实现低延迟语音交互,支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术,能够在高性能硬件上实现极低的延迟,所有处理都在本地完成,确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等,用户可以根据需求灵活选择。
一款开源的自动化 AI 播客生成工具,能够自动抓取网络新闻内容,并生成听起来自然流畅的叙述性音频播客。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
Luna AI 是一个全自动的 AI 直播系统,由多种 AI 模型驱动的虚拟主播,能够实时与观众互动并聊天。它支持多种直播平台,能够生成自然语言的回答并进行语音交流。
ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口,集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术,旨在提供一种互动性强的用户体验。
数字人Live2D项目:提供模块化扩展和Live2D人物模型控制,支持Docker快速部署和多平台访问,旨在创建具有互动性的数字人应用。
CyberWaifu 是一个结合大型语言模型(LLM)与文本转语音(TTS)技术的聊天机器人,能够在 QQ 平台上与用户进行自然流畅的对话,支持表情包和QQ表情,并具备联网搜索功能,提供实时信息获取。
Kesha v3.0 是一个实验项目,结合了 Silero 的文本转语音、Vosk 的语音转文本、Picovoice Porcupine 的唤醒词检测和 ChatGPT 的智能对话功能,旨在提供自然流畅的语音交互体验。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
Deepgram Voice AI是一款先进的语音AI平台,利用人工智能技术提供高质量的实时语音转文本和文本转语音服务,适用于医疗转录、对话AI及客户支持等多个应用场景。Deepgram提供易于集成的API,支持多种语言,旨在改变企业与开发者整合语音识别与合成的方式。
Vapi是一个平台,允许开发者在几分钟内构建、测试和部署语音机器人,旨在简化与技术的语音交互。通过先进的AI算法,Vapi实现了无缝的语音识别、自然语言理解和语音合成,提升用户交互体验。
ScriptMind 是一个利用 AI 助手提升笔记记录的工具,支持无缝写作、动态图形可视化和文本转语音功能,帮助用户更好地组织和理解自己的想法。
AudiblDoc是一款文本转语音及语音转文本的应用,能够将文档转换为音频格式,同时也支持将语音转换为文本,方便用户进行信息获取与内容记录。
BestAiTool.ai是一个帮助用户找到最佳AI工具和人工智能公司的平台,用户可以通过浏览不同类别的AI工具、阅读评论和比较功能,来选择最适合自己需求的工具。
Omni是一个旨在为创作者提供更便捷的AI配音解决方案的平台。通过先进的人工智能技术,Omni使用户能够轻松地将文本转换为高质量的语音,帮助他们在视频、播客和其他多媒体项目中实现专业的配音效果。
GPTSidekick是一个由GPT-4和Claude 3驱动的AI助手,提供多种功能,适合内容创作、研究辅助、语言翻译和数据分析等需求。用户可以通过简单的注册流程,选择合适的套餐,便捷地访问其强大的功能。
AI Tools Kit是一个集成多种生产力、SEO、写作、社交媒体和营销工具的平台,提供AI艺术生成、提示工程、关键词研究、图像质量增强等50多种工具,未来将推出更多热门工具。
Cameralyze是一个无代码AI工作室,提供在线平台和API访问,用户可以轻松找到和使用各种现成的AI模型,支持多种应用场景。
MyGPT是一个快速、直观且强大的平台,允许用户创建自己的ChatGPT机器人。它利用了GPT-4的能力,结合Whisper的先进语音识别和基于AI的文本转语音(TTS)技术,提供互动和可定制的机器人构建体验。
OpenChit是一款支持文本和语音的原生AI聊天客户端,具有文本转语音播放功能(支持Siri和Azure TTS)。用户可以通过键入或语音命令与AI进行互动,并通过文本转语音功能收听AI的回复。
AIWritingPal是一款强大的AI内容创作工具,利用先进的人工智能技术提升写作技能。它提供语法纠正、拼写检查和风格优化等功能,以提高书面内容的质量。支持30多种语言,旨在帮助用户撰写独特而引人注目的文章、广告、电子邮件等。
Speechki ChatGPT Plugin 是一款终极文本转语音解决方案,提供超过300种超真实声音,支持78种语言,旨在将文本转化为高质量音频内容,适合内容创作者、教育工作者、企业和播客使用。
FlexClip 是一个适合各类创作者的视频编辑平台,提供可定制的模板和丰富的库存照片、视频及音乐。它拥有强大的编辑功能,使用户可以轻松地修剪、合并、添加文本、音乐和过渡效果。AI 驱动的工具如自动字幕、文本转语音、AI 图像生成、文本转视频和 AI 脚本,提升了编辑体验。
EasyAI是一个领先的在线学习软件,旨在简化和加速课程创建。它提供了一个用户友好的平台,让用户能够创建引人入胜和互动的在线课程。
Speechllect是一个基于AI的解决方案,提供实时的语音转文本和文本转语音功能,利用SenseTheory数学理论分析用户发音的每个单词的意义,从而实现准确且具有上下文意义的转换。
AiVOOV 是一个利用 AI 语音将书面文本转换为高质量音频文件的领先文本转语音生成网站。它提供超过 900 种真实的语音选择,支持 125 种语言,为用户创建专业且引人入胜的配音提供了广泛的选择。AiVOOV 消除了对传统配音服务的需求,为语音相关项目提供了一种成本效益高且高效的解决方案。
TalkGPT是一个先进的文本转语音平台,用户可以通过语音命令与AI聊天机器人互动。它结合了ChatGPT的对话能力和语音输入输出的便利性,用户只需激活设备的麦克风,开始与机器人对话,系统会处理语音输入并通过先进的文本转语音引擎朗读文本回复,完全无需打字。
VoiceGPT是专为Apple Watch用户设计的语音助手,允许用户通过语音与GPT4进行智能对话,并将回答朗读出来。只需在Apple Watch或iOS设备上激活应用,开始说话,VoiceGPT将把你的声音转化为文本并发送给GPT4处理,随后将回答朗读给你。
GoVoice 是一款利用人工智能的内容创作工具,用户可以轻松生成各种文本,节省时间并提高生产力。通过语音转文本和文本转语音功能,用户只需录制自己的声音,GoVoice 就能快速生成所需的文字内容,适合用于商用。