UFO是由微软开发的专注于Windows操作系统交互的UI代理框架。它能够理解用户的自然语言指令和屏幕的视觉内容,自动执行复杂任务。UFO支持跨应用程序操作,自动化控制交互,以及多模态输入处理,旨在提供无缝的操作体验。此外,UFO还支持高度可定制的UI交互方式,易于集成和扩展,适用于自动化测试、自定义UI交互脚本的创建、以及集成到现有的Windows应用程序中。
AppAgent是一个基于大型语言模型的框架,旨在通过模仿人类交互(如点击和滑动)来操作智能手机应用程序。它能够在简化的动作空间内高效工作,无需系统后端访问,并能够自主学习新应用程序。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
Auto-GPT 是一个开源项目,旨在让 AI 实现自举,能够自主生成代码、自我运行、自我调试和自我优化。它使用户能够专注于核心创意,AI 则负责执行任务。
该项目演示了如何让 GPT-4V 来控制自己的电脑,通过简单的指令完成各种任务。该系统使用领域特定语言(DSL)与机器进行交互,支持点击、输入和搜索等基本动作,每次执行操作时会携带任务目标、上一步执行结果以及屏幕截图作为上下文,具有高定制化程度的提示设计,非常适合处理复杂任务。
PerfAgents是一个基于AI的合成监控平台,旨在通过利用现有的自动化脚本来增强应用程序的性能和可靠性,同时促进持续测试。
AI Town是一个旨在提供强大基础的平台,支持共享全局状态、事务处理和事件日志,便于开发和扩展。
Babylon Voice 是一个基于语音识别技术的网络应用,用户可以通过语音命令与其功能进行交互,提升工作效率,并增强无障碍体验。
Tap是一款紧凑直观的可穿戴AI设备,提供17小时的电池续航,支持USB-C充电,旨在为用户提供随时随地的智能助手服务。
FFMPerative 是一个简单的视频处理工具,利用大型语言模型(LLM)和HuggingFace的Agents & Tools,可以根据自然语言提示执行复杂的任务。
一款由 GPT-4 支持的开源编码助手,能够在命令行中运行,为项目提供上下文并协调多个文件的编辑。
OS-Genesis是一款自动化GUI Agent轨迹构建工具,通过逆向任务合成技术,无需人工监督或预定义任务即可生成高质量和多样化的GUI代理轨迹数据,极大地提高了测试效率和数据多样性。