CognAgent 是一个基于18亿参数的视觉语言模型(VLM),专注于图形用户界面(GUI)的理解和导航。它支持高分辨率图像(1120x1120像素),能够识别文本、图标、按钮等元素,并根据用户指令执行点击、滑动、输入等操作。CognAgent在多个跨模态基准测试和GUI操作数据集上表现出色,支持中文和英文双语交互,并且是一个开源项目。