多模态实时语音模型

Ultravox 是一个开源的多模态实时语音模型，其语音理解性能接近 GPT-4o。它能够直接理解文本和人类语音，无需单独的自动语音识别（ASR）系统。目前支持文本输出，首次响应时间仅为 150 毫秒，生成速度约为 60 token/秒。基于 Llama3.1-8B 和 whisper 构建，通过多模态投影器直接将音频转换为高维空间，显著提升了响应速度。

多模态实时语音模型开源语音模型语音交互语音转文本

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。