flyscrape是一个用Go语言编写的网站爬虫,提供独立可定制的Web抓取功能,结合了Go语言的高效性能和JavaScript的灵活性,具有易于配置和稳定运行的优点,适合各种数据抓取需求。
精简版网站爬虫工具,专为自托管优化的网页抓取和转换工具。可将任意网站内容抓取并转换为LLM友好的markdown格式,移除了原版中的计费逻辑和AI功能,支持批量爬取和格式转换,适合需要构建AI训练数据的场景。
Browserbear是一个无代码的网页抓取工具,允许用户通过API和无代码工具创建各种浏览器自动化任务,适用于数据提取、自动化测试、网页抓取、数据集成和任务自动化等多种使用场景。
Hexomatic 是一款网络爬虫和工作流自动化工具,允许用户将互联网作为自己的数据源。它能够自动化执行100多个销售、营销或研究任务,帮助用户高效获取和处理数据。用户可以利用其网络爬虫功能从任何网站提取数据,使用一键式爬虫或创建自定义爬虫食谱。此外,Hexomatic 提供100多种现成的自动化功能,用户可以将自己的爬虫食谱与现成的自动化程序结合,创建强大的自动化工作流。
一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。
面向网络安全专业人员的高级网络爬虫,可用于自动化数据收集和网络侦查。支持多种操作系统和平台,并提供了多种功能,例如多线程爬取、代理支持、自定义头和数据等。此外,还可以进行敏感信息的收集、漏洞扫描和文件下载等任务。
HyperCrawl是一个专为基于检索的语言模型开发而设计的零延迟网页爬虫,旨在提供快速、高效的网页数据抓取,支持各种应用场景,助力AI技术的快速迭代和模型训练。
Universally是一个Chrome扩展,允许用户在任何网站上使用ChatGPT作为个人AI助手。用户只需通过简单的快捷键即可打开ChatGPT,并加载文章、YouTube视频和PDF文件进行讨论、总结和提问。
Dendrite Python SDK是一个强大的工具包,旨在帮助开发者构建能够像人一样浏览网页、与网站元素进行互动并提取数据的网络AI Agent。它支持多种网页自动化任务,简化了网页自动化的实现过程,易于集成和使用。
Go语言工具集锦,提供了常用和不常用的工具供Go项目使用,涵盖多种实用工具,适用于各种类型的Go项目,附带示例代码和使用说明,并支持社区贡献与扩展。
Reedr 是一款专注于通过AI自动化、解决和重复浏览器任务的软件应用,旨在简化和民主化抓取行业,适用于个人用户和企业级用户,操作简单直观。
命令行的HTML到Markdown转换器和网络爬虫工具,可以用来从网页剪辑内容并将其转换为Markdown格式,非常适合个人归档或笔记记录。
go-cache 是一个内存中的 key:value 存储/缓存,类似于 memcached,适用于在单机上运行的应用程序。