Ultravox 是一个开源的多模态实时语音模型,其语音理解性能接近 GPT-4o。它能够直接理解文本和人类语音,无需单独的自动语音识别(ASR)系统。目前支持文本输出,首次响应时间仅为 150 毫秒,生成速度约为 60 token/秒。基于 Llama3.1-8B 和 whisper 构建,通过多模态投影器直接将音频转换为高维空间,显著提升了响应速度。