Browser-Use 是一个开源的网页自动化库,能够让大型语言模型(LLM)与网站进行互动,通过简单的接口实现网页自动化操作,支持多标签管理、XPath提取和视觉模型处理。它兼容任意 LLM,适用于多种浏览器的自动化操作,可用于数据抓取和信息检索。
基于GPT-4 Vision的可靠浏览器自动化工具,以教授人类的方式进行操作,是目前最可靠的AI首选自动化工具。
Open Interpreter是一个开源项目,允许语言模型在你的计算机上运行代码以完成各种任务。用户可以通过类似ChatGPT的终端界面进行操作。
Project Atlas 2 是一个强大的工具,旨在通过自然语言处理技术,帮助用户在浏览器中自动化各种业务操作。用户可以利用这个项目来简化日常任务,提高工作效率,并且通过简单的语言指令与浏览器进行互动。
ScrapeGraphAI 是一个网络抓取Python库,使用LLM和图形逻辑为网站、文档和XML文件创建抓取管道。只需说出你想提取的信息,这个工具库就能为你完成!
Scan2AI是一个先进的Chrome扩展,用户可以捕捉屏幕的任意区域并将其发送到强大的AI API进行即时处理和洞察。
Transformers.js 是一个 JavaScript 库,允许用户在浏览器中直接运行预训练的 Transformer 模型,支持自然语言处理、计算机视觉、音频处理和多模态任务。它使用 ONNX Runtime 在浏览器中高效运行模型,并支持将 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX 格式。
Imagga是一款图像识别API,提供图像标签、分类、视觉搜索和内容审核等解决方案。用户可以通过云端或本地部署的方式访问API,将其集成到应用程序或平台中,利用其强大的功能。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。