mPLUG-DocOwl 是阿里巴巴集团开发的一款模块化多模态大型语言模型,专门用于文档理解。该模型不需要光学字符识别 (OCR),由文档编码器、多模态语言模型和知识库三个主要组件组成。它通过文档类数据的指令微调,具备理解文档图片的能力,并在多个文档理解基准测试中取得了最先进的性能。适用于自动化数据提取、客户服务聊天机器人和搜索引擎优化等任务。