Crawl4LLM是由清华和卡内基梅隆大学联合开源的智能爬虫系统,旨在解决LLM预训练数据爬取效率低下的问题。通过优先爬取对LLM预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。该系统支持多种爬取模式,提供完整工具链,包括爬取网页、提取文档ID、获取文档内容,并可直接与DCLM预训练框架对接,简化预训练流程。
Docta是一款先进的数据中心人工智能平台,旨在检测和纠正数据问题。它支持包括表格数据、文本数据、图像数据和预训练模型嵌入在内的多种数据类型,提供自动服务以优化数据,具备数据诊断和数据策划功能。
mpathic是一个强大的对话式人工智能平台,旨在通过分析和优化人机交互,提高数据质量、减少人工审核成本并改善客户沟通。它在多个领域具有广泛的应用,包括招聘过程中的性别差异解决和临床试验监控。
Lilac是一个开源工具,旨在帮助数据和AI从业者通过改善数据质量来提升产品性能。用户可以通过Python界面或命令行界面搜索、量化、编辑和比较数据字段。Lilac提供聚类、语义和关键词搜索、模糊概念搜索以及检测PII、重复项、语言或自定义信号等功能。
arckit是一个可轻松使用抽象和推理语料库 (ARC) 数据集的Python和命令行工具,旨在帮助用户高效地处理和分析数据集,支持数据的可视化,并能够无缝集成到现有的机器学习工作流程中。
useBase Web Extension for Chrome是一个官方扩展,允许用户直接从任何网页与useBase收藏进行交互。用户可以通过选择网页上的文本将数据发布到他们的收藏中,并通过简单的命令在输入区域中提取和分析数据。该扩展还包括切换明暗模式的选项。
Table Ninjia是一个平台,允许用户快速轻松地从PDF或图像中提取表格并转换为CSV文件。用户只需将PDF或图像文件拖放或上传到网站,AI驱动的工具将准确检测并提取表格。
textsum 是一个使用 Transformer 摘要模型的工具,能够处理任意长度的文本文档,支持生成高质量的摘要。它提供了命令行接口和 Python API,使得用户可以方便地集成和使用该工具。
AskCodi是一个创新的AI工具,旨在帮助开发人员和编程爱好者简化编程任务。它利用先进的机器学习算法,提供实时代码建议、调试支持,并高效地帮助编写代码片段。该工具特别适合软件开发人员、数据科学家和希望提升编码技能的学生,能够加速项目完成。
一个简单的Python程序,实现了搜索、提取和总结的流程,支持命令行和图形界面操作,用户可以根据需求自定义搜索条件和输出格式,提高数据处理的灵活性和效率。
SciDataFlow是一个命令行科学数据管理工具,旨在促进科学数据的高效流动和管理。它支持多种数据格式,具有灵活的数据流处理能力,方便用户集成到自动化科研流程中。
Seek是一个生成AI驱动的数据库查询工具,帮助企业现代化其分析能力,克服信息障碍,使用户能够快速高效地访问和分析大数据集。
Enclave AI 是一款私密的人工智能助手,使用开源模型并直接在用户设备上运行。用户的使用过程完全匿名,数据不会离开设备。我们不追踪用户凭证或监控应用内的任何活动,确保隐私得到保障。
像操作Tableau一样直观探索数据的图形界面工具,集成在Panel数据应用中,让数据探索变得简单快捷
一个用于LLM数据摄取的命令行工具,支持从GitHub、本地库、arXiv、Sci-Hub论文、YouTube逐字稿及网络文档中抓取数据,并将其保存为文本文件或剪贴板,方便进行LLM的摄取。
Superagent 是一款先进的 AI 工具,能够通过大型语言模型自动浏览互联网并管理信息。它与 Airtable 无缝集成,提供强大的 API,适合需要高效收集、组织和分析大量数据的用户。
TreeSheets 是一个开源工具,旨在帮助用户以自由格式管理和展示数据,支持多层次的结构和可视化功能,适合各种数据管理需求。