LLaMA-Omni是由中国科学院计算技术研究所开发的开源语音交互模型,基于Llama-3.1-8B-Instruct构建,旨在实现与GPT-4o相当的语音能力。它通过集成语音编码器、适配器、LLM和流式语音解码器,支持直接从语音输入生成文本和语音响应,无需中间转录步骤,延迟低至226毫秒。项目提供完整的两阶段训练流程、100条验证数据和高效训练方案(3天4个GPU完成),适合虚拟助手、客服系统等实时交互场景。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型