Crawlee-Python是一个用于Python的网络爬虫与浏览器自动化库,提供全面的网页抓取和数据提取解决方案,支持快速构建可靠的爬虫,具有人类行为模拟能力和现代反爬虫技术规避能力,适合各种数据抓取需求。
Automa是一款实用的Chrome插件,通过连接不同的任务区块,用户可以轻松自定义浏览器工作流,自动执行重复性工作,提升工作效率。
GPT-V-on-Web是一个结合了GPT-4视觉能力与Vimium的项目,旨在实现网页的自动化操作。它能够通过自然语言处理与网页进行交互,识别网页内容并执行相应操作,极大地提高了用户在网络上的操作效率。用户可以自定义快捷键来快速完成各种任务,提升工作流的流畅性。
Hexomatic 是一款网络爬虫和工作流自动化工具,允许用户将互联网作为自己的数据源。它能够自动化执行100多个销售、营销或研究任务,帮助用户高效获取和处理数据。用户可以利用其网络爬虫功能从任何网站提取数据,使用一键式爬虫或创建自定义爬虫食谱。此外,Hexomatic 提供100多种现成的自动化功能,用户可以将自己的爬虫食谱与现成的自动化程序结合,创建强大的自动化工作流。
基于大规模生产工作流数据训练的智能网络Agent,可将开源大型语言模型微调为专门的网络Agent,帮助用户更高效地完成网络任务。它支持将大型语言模型微调以适应特定的网络任务,通过利用生产规模的工作流数据进行训练,显著提高用户在网络任务中的效率。ScribeAgent具有易于集成和扩展的架构,并欢迎社区的贡献。
一个可以运行的开源 Go 互联网搜索引擎,旨在帮助开发者学习如何构建自己的搜索引擎。
Webᵀ Crawl 通过提供一个网址,快速将完整网站及其内容(如PDF、FAQ等)转化为可用于自定义大模型的提示或向量数据库的块,简化数据处理过程。