AI交流(进群备注:OSUM)

OSUM是西北工业大学开源的一个语音理解模型,支持8种语音理解任务,涵盖从语音识别到情感识别,以及语音到文本的深度理解。它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化,适用于多种语音处理场景。
OSUM的特点:
- 1. 支持语音识别(ASR)
- 2. 带时间戳的语音识别(SRWT)
- 3. 声音事件检测(VED)
- 4. 语音情感识别(SER)
- 5. 说话风格识别(SSR)
- 6. 说话者性别分类(SGC)
- 7. 说话者年龄预测(SAP)
- 8. 语音到文本对话(STTC)
- 9. 结合Whisper和Qwen2
- 10. 采用ASR+X训练策略
- 11. 支持多任务同时训练优化
OSUM的功能:
- 1. 用于语音识别任务
- 2. 用于带时间戳的语音识别任务
- 3. 用于声音事件检测任务
- 4. 用于语音情感识别任务
- 5. 用于说话风格识别任务
- 6. 用于说话者性别分类任务
- 7. 用于说话者年龄预测任务
- 8. 用于语音到文本对话任务
相关导航

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs开源 – 提升多代理LLM系统鲁棒性
该项目研究多代理大型语言模型(MoA)架构在面对欺骗性代理时的脆弱性,并提出了多种无监督防御机制(如“Dropout & Cluster”和“Cluster & Filter”)以恢复性能损失。研究通过基准测试(如AlpacaEval 2.0和QuALITY)评估了欺骗性代理对系统的影响,并分析了欺骗性代理类型、数量、聚合器模型强度等因素。项目旨在提高多代理LLM系统的鲁棒性和安全性,适用于需要高可靠性的应用场景。
暂无评论...