语音理解模型

OSUM是西北工业大学开源的一个语音理解模型，支持8种语音理解任务，涵盖从语音识别到情感识别，以及语音到文本的深度理解。它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时训练优化，适用于多种语音处理场景。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。