AI交流(进群备注:OSUM)

OSUM是西北工业大学开源的一个语音理解模型,支持8种语音理解任务,涵盖从语音识别到情感识别,以及语音到文本的深度理解。它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化,适用于多种语音处理场景。
OSUM的特点:
- 1. 支持语音识别(ASR)
- 2. 带时间戳的语音识别(SRWT)
- 3. 声音事件检测(VED)
- 4. 语音情感识别(SER)
- 5. 说话风格识别(SSR)
- 6. 说话者性别分类(SGC)
- 7. 说话者年龄预测(SAP)
- 8. 语音到文本对话(STTC)
- 9. 结合Whisper和Qwen2
- 10. 采用ASR+X训练策略
- 11. 支持多任务同时训练优化
OSUM的功能:
- 1. 用于语音识别任务
- 2. 用于带时间戳的语音识别任务
- 3. 用于声音事件检测任务
- 4. 用于语音情感识别任务
- 5. 用于说话风格识别任务
- 6. 用于说话者性别分类任务
- 7. 用于说话者年龄预测任务
- 8. 用于语音到文本对话任务
相关导航
暂无评论...