OmniParser开源项目 – 多功能屏幕解析工具
OmniParser 是由微软开源的一款多功能屏幕解析工具,能够将 UI 截图转换为结构化数据,精准识别屏幕上的可点击区域,并理解 UI 元素的功能。它集成了 DeepSeek 技术,能够化身为可操控电脑的 AI 智能体,支持与多种大语言模型(如 DeepSeek、Qwen、OpenAI、Anthropic)无缝集成,通过简单的提示词让 AI 直接操作电脑完成复杂的任务。OmniParser 还包含经过精细调整的 YOLOv8 模型和针对数据集微调的 Florence-2 基础模型,提高了视觉识别的准确度和效率。