Ola是一个开源的全能多模态语言模型,旨在打破多模态理解的边界,支持文本、图像、视频和音频的全面理解。它采用渐进式模态对齐策略(PMA),通过三个阶段(文本-图像、语音、视频)逐步扩展模型能力,确保在不同模态间的性能平衡。Ola-7B版本在OpenCompass多模态排行榜上平均得分72.6,排名第一,是参数少于15B的模型中表现最佳的。此外,Ola支持实时流式解码功能,增强文本和语音交互的流畅性,适合需要高级交互体验的场景。