所有AI工具AI学习网站AI开发框架AI开源项目AI音频工具

OSUM开源项目 – 多功能语音理解模型

OSUM是西北工业大学开源的一个语音理解模型,支持8种语音理解任务,涵盖从语音识别到情感识别,以及语音到文本的深度理解。它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任...

标签:

AI交流(进群备注:OSUM)

OSUM是西北工业大学开源的一个语音理解模型,支持8种语音理解任务,涵盖从语音识别到情感识别,以及语音到文本的深度理解。它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化,适用于多种语音处理场景。

OSUM的特点:

  • 1. 支持语音识别(ASR)
  • 2. 带时间戳的语音识别(SRWT)
  • 3. 声音事件检测(VED)
  • 4. 语音情感识别(SER)
  • 5. 说话风格识别(SSR)
  • 6. 说话者性别分类(SGC)
  • 7. 说话者年龄预测(SAP)
  • 8. 语音到文本对话(STTC)
  • 9. 结合Whisper和Qwen2
  • 10. 采用ASR+X训练策略
  • 11. 支持多任务同时训练优化

OSUM的功能:

  • 1. 用于语音识别任务
  • 2. 用于带时间戳的语音识别任务
  • 3. 用于声音事件检测任务
  • 4. 用于语音情感识别任务
  • 5. 用于说话风格识别任务
  • 6. 用于说话者性别分类任务
  • 7. 用于说话者年龄预测任务
  • 8. 用于语音到文本对话任务

相关导航

暂无评论

暂无评论...