精简版网站爬虫工具,专为自托管优化的网页抓取和转换工具。可将任意网站内容抓取并转换为LLM友好的markdown格式,移除了原版中的计费逻辑和AI功能,支持批量爬取和格式转换,适合需要构建AI训练数据的场景。
flyscrape是一个用Go语言编写的网站爬虫,提供独立可定制的Web抓取功能,结合了Go语言的高效性能和JavaScript的灵活性,具有易于配置和稳定运行的优点,适合各种数据抓取需求。
Hexomatic 是一款网络爬虫和工作流自动化工具,允许用户将互联网作为自己的数据源。它能够自动化执行100多个销售、营销或研究任务,帮助用户高效获取和处理数据。用户可以利用其网络爬虫功能从任何网站提取数据,使用一键式爬虫或创建自定义爬虫食谱。此外,Hexomatic 提供100多种现成的自动化功能,用户可以将自己的爬虫食谱与现成的自动化程序结合,创建强大的自动化工作流。
Lightpanda Browser是一款开源的无头浏览器,专为自动化任务设计,具有超低内存占用和超快执行速度,可助力AI Agent、数据抓取和测试等工作。它的内存占用极低,仅为Chrome的1/9,执行速度超快,比Chrome快11倍,并且兼容Playwright和Puppeteer,能够轻松集成现有的自动化工具。
一款能将临时 IP 变成固定 IP 的代理池中间件,支持多协议、动态获取、自动验证,适用于高并发异步处理,轻松应对各种网络环境和高流量需求。
基于大规模生产工作流数据训练的智能网络Agent,可将开源大型语言模型微调为专门的网络Agent,帮助用户更高效地完成网络任务。它支持将大型语言模型微调以适应特定的网络任务,通过利用生产规模的工作流数据进行训练,显著提高用户在网络任务中的效率。ScribeAgent具有易于集成和扩展的架构,并欢迎社区的贡献。
Reworkd AI是一个强大的工具,旨在通过AI代理在大规模下提取网页数据。无须开发者即可使用,适用于多种行业,帮助用户高效获取所需信息。用户可以通过加入候补名单开始使用该工具,提升数据收集的效率和准确性。
gowitness是一个用Go语言编写的网页截图工具,利用Chrome无头模式进行网页截图。该工具允许用户以多种格式保存网页截图,并支持自定义截图延迟,能够批量处理多个URL,提供简单易用的命令行接口。
基于Ollama的自动化研究助手,能够自主执行网络研究任务。输入一个查询后,它会自动确定研究重点、执行网页搜索和内容抓取、保存发现的内容。