OSUM是西北工业大学开源的一个语音理解模型,支持8种语音理解任务,涵盖从语音识别到情感识别,以及语音到文本的深度理解。它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化,适用于多种语音处理场景。