LLaMA-Omni是由中国科学院计算技术研究所开发的开源语音交互模型,基于Llama-3.1-8B-Instruct构建,旨在实现与GPT-4o相当的语音能力。它通过集成语音编码器、适配器、LLM和流式语音解码器,支持直接从语音输入生成文本和语音响应,无需中间转录步骤,延迟低至226毫秒。项目提供完整的两阶段训练流程、100条验证数据和高效训练方案(3天4个GPU完成),适合虚拟助手、客服系统等实时交互场景。
Baichuan-Audio是一个开源的端到端语音交互基础模型,旨在让机器真正“听懂”并“说好”人类语言。它支持高质量、可控的实时中英双语对话,并首次开源了音频理解与生成基准测试集OpenAudioBench,涵盖2701个数据点。通过采用两阶段训练策略,该模型在智能表现上得到了显著提升。