datatrove是一个平台无关的数据处理开源工具,旨在解放数据处理中的脚本疯狂,提供一套可定制的管道处理块,支持高效的数据处理,适用于不同规模的数据。
Jsonformer 是一个强大的工具,能够将自然语言转换为结构化数据,支持多种数据格式的输出,灵活的模板系统使其能够与大型语言模型(LLMs)兼容,适用于各种场景。
这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
H2O.ai的开源大语言模型GPT项目,旨在创建世界上最好的开源GPT模型,提供强大的自然语言处理能力,支持多种任务,适用于大规模应用。
该项目旨在将GitHub.com的数据库系统升级到MySQL 8.0,以提高性能、安全性和兼容性。通过这一升级,GitHub.com能够更好地支持大型数据集,并与现代应用程序保持更高的兼容性。
Formbricks 是一个开源的表单和调查工具,旨在提供用户友好的界面和强大的功能,支持自定义表单的创建、实时数据分析以及与其他应用程序的集成。
Criya是一个AI生成的专业网站平台,能够快速展示您的专业技能,制定咨询服务并安排预约,所有功能集于一体。
AIT Contacts Extractor for Gmail™是一款基于GPT-3的应用,能够从电子邮件文本中提取姓名、职位、组织、邮寄地址、电话、电子邮件和网站数据。用户只需在自己喜欢的电子邮件客户端中安装该应用,并打开包含联系信息的电子邮件,应用会自动提取联系人数据并以便捷的格式呈现。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
AskUI Vision Agent 是一个基于 Python 的计算机任务自动化框架,通过集成 Agent OS 和强大的模型如 Anthropic 的 Claude Sonnet 3.5 v2 和 AskUI 的 Prompt-to-Action 系列,实现了复杂场景的自动化。
Infinity是一个高吞吐、低延迟的REST API,专为向量嵌入服务而设计,支持多种sentence-transformer模型和灵活的框架兼容性,旨在提升机器学习和自然语言处理任务的效率和性能。
LeRobot 是一个端到端的训练框架,专注于真实世界的机器人技术,通过 PyTorch 提供模型、数据集和工具,旨在降低机器人技术的准入门槛,使研究者和开发者能够更轻松地开发和测试机器人应用。
NanoLLM 是一个专门为大语言模型(LLM)提供优化本地推理的平台,支持 HuggingFace 风格的 API,具备量化、视觉/语言模型、多模态Agent、语音处理、矢量数据库集成和检索增强生成(RAG)等功能。
Jetstream 是为 AT Proto 协议开发的轻量级 JSON 事件流处理工具,能够将 ATProto 的 CBOR 编码 MST 块转换为易于处理的 JSON 对象。它支持实时订阅和过滤特定集合与 DID,提供压缩传输,特别适用于 Bluesky 社交网络的数据流处理。