Ultravox开源项目 – 开源多模态实时语音模型

Ultravox 是一个开源的多模态实时语音模型，其语音理解性能接近 GPT-4o。它能够直接理解文本和人类语音，无需单独的自动语音识别（ASR）系统。目前支持文本输出，首次响应时间仅为 150 毫秒，生成速度约为 60 token/秒。基于 Llama3.1-8B 和 whisper 构建，通过多模态投影器直接将音频转换为高维空间，显著提升了响应速度。

Ultravox的特点:

1. 语音理解性能逼近 GPT-4o
2. 多模态实时语音模型
3. 直接理解文本和人类语音，无需单独的 ASR
4. 首次响应时间 150 毫秒
5. 生成速度约 60 token/秒
6. 基于 Llama3.1-8B 和 whisper 构建
7. 使用多模态投影器将音频直接转换为高维空间

Ultravox的功能:

1. 实时语音转文本
2. 多模态语音理解
3. 快速响应的语音交互
4. 无需单独 ASR 的语音处理
5. 语音激活的虚拟助手
6. 多模态内容理解和生成
7. 增强语音障碍用户的无障碍工具
8. 集成到客服聊天机器人中，支持语音和文本交互

相关导航

OmniSteward开源项目 – 一款智能家居助手

OmniSteward是一款基于人工智能的大型语言模型，能够通过语音或文字与用户进行互动，控制智能家居和电脑，具备高度的可扩展性和无限的应用可能性。

VoicePen官网 – 用AI记录与转写的智能工具

VoicePen是一款生产力工具，允许用户录制和转写口语为书面文本，支持多种功能，如重写文本、创建笔记、摘要、电子邮件、消息和博客文章。它可以轻松记录想法、在线会议和讲座，并利用丰富的AI提示库生成高质量文本，原生支持苹果平台。

VoiceVector官网 – 无限语音克隆技术

VoiceVector 提供先进的语音克隆、文本转语音和语音转文本技术，支持按需付费，灵活实用。

文小言官网 – 百度的AI搜尋與創作助手

文小言是百度基於文心大模型開發的一款AI搜尋和創作助手，提供個性化搜尋結果、創作建議，並支持語音和圖片輸入。它被設計為滿足用戶日常需求的綜合AI助手，特別是在搜尋和內容創作方面表現突出。文小言的前身是百度的Ernie Bot，於2024年重新品牌化，增加了多模態搜尋功能，如文字轉圖片生成。

Ai Note – Ai Writing Tool-智能写作平台，优化内容生成

Ai Note是一个出色的AI写作平台，能够生成既美观又符合搜索引擎优化的内容。用户只需描述内容主题并根据需要调整设置，输入一些基本信息或关键词，AI算法便能自动生成所需内容，用户可以轻松查看、编辑或导出结果。

FixMeBot官网 – AI语言助手，助你纠正文本

FixMeBot是一个基于AI的语言助手，帮助用户纠正文本、重述句子和翻译内容。它采用先进的AI算法提供准确的建议和修正，确保书面沟通无懈可击。用户可以通过Telegram与机器人聊天，根据需要选择适合的订阅计划，发送文本或语音消息，机器人将即时提供建议和修正，帮助用户提升文本质量。

EliteGPT官网 – 一体化的AI平台

EliteGPT是一个全面的AI平台，集成了强大的聊天机器人、先进的自然语言处理、智能数据分析和机器学习算法，旨在发挥人工智能的全部潜力，适用于各种用例。

Alexa Chatbot powered by ChatGPT官网 – 与Alexa对话的智能聊天助手

这是一个第三方Alexa技能，通过说'Alexa, open ChatGPT'或'Alexa, ask ChatGPT how tall the Eiffel tower is'来启动。它允许用户进行长时间的对话，支持多种语言和声音，能够跨会话进行交互。

SnapGPT官网 – 智能文本识别与聊天助手

SnapGPT是一个智能文本识别应用，结合了友好的聊天助手功能，能够轻松从图像和文档中提取文本，并利用先进的GPT-3技术回答与文本相关的问题，同时提供文本转图像和语音转文本等功能，以提高工作效率。

ProtoReplicant开源项目 – 浏览器中的AI 3D化身语音接口

ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口，集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术，旨在提供一种互动性强的用户体验。

BriefMind: AI Voice Memos官网 – 简化生活的AI记事本

BriefMind是一款AI记事工具和音频转文本转换器，旨在简化用户的生活。它能够实时将语音转化为文本，适用于多个场合，帮助用户捕捉重要信息和创意。

Oliva Multi-Agent Assistant开源项目 – 开源语音RAG助手

Oliva 是一款开源语音 RAG 助手，能够通过自然语音实现对 Qdrant 向量数据库的实时搜索。它由 Deluxer 团队开发，集成了 Deepgram（语音转文本）和 LiveKit（实时语音通信），支持多智能体协作和语义搜索。Oliva 适用于知识库搜索、智能客服、语音驱动 AI 应用等场景，旨在提升 AI 交互的自然性和效率。

Zoom Media Asset Management System官网 – 简化创意和媒体工作流程

Zoom Media Asset Management System是Evolphin公司提供的一款数字资产管理和媒体资产管理解决方案，专为创意、市场营销和IT团队设计。该软件简化了图像、音频和视频的工作流程，提供先进的人工智能功能、快速搜索、强大的版本控制及Adobe插件等多种功能，帮助团队高效管理创意管道中的各类资产。