AI开源项目 | 第 85 页

s2025开源项目 – 助力机器学习模型转化为产品的资源库

CMU的“生产中的机器学习”课程资源库，帮助学习者掌握从模型到生产的全流程，提供丰富的实战案例和开源教材，旨在降低学习成本，实现机器学习的实际应用。

Arroyo 是一个用 Rust 编写的分布式流处理引擎，旨在高效地对数据流进行有状态计算，支持对高速实时数据进行复杂查询，并能在亚秒级内返回结果。它提供了 SQL 和 Rust 管道，可扩展到每秒处理数百万事件，并支持类似窗口和连接的有状态操作。此外，Arroyo 还为容错和管道恢复提供状态检查点，通过数据流模型实现及时流处理。

0

Rust编写SQL流处理引擎实时数据分析容错机制

创建百万参数级语言模型助手开源项目 – 构建简化版大型语言模型

从零开始构建具有LLaMA 1架构的2.3M参数大型语言模型（LLM），无需高端GPU，采用简化数据集和基础PyTorch实现。该项目旨在使更多开发者能够在资源有限的情况下，轻松构建和训练自己的语言模型，适用于研究和开发用途。

0

LLaMA架构从零开始构建语言模型低资源模型训练开源项目

Kokoro Web开源项目 – 机器学习驱动的浏览器语音合成工具

Kokoro Web 是一个在浏览器中直接实现的语音合成项目，利用机器学习技术，用户无需安装任何额外软件，便可体验高质量的语音合成。该项目基于WebGPU加速，确保了出色的性能，并采用Transformers.js构建，支持多种语言和语音风格，方便用户根据需求进行定制。

0

transformers.jsWebGPU加速机器学习驱动的语音合成工具浏览器语音合成

AI-Bootcamp开源项目 – 自定进度的生成式AI训练营

一个自定进度的生成式AI训练营，帮助你快速掌握机器学习和AI的核心技能。

0

AI技能培训实战项目开源项目机器学习教程

NineRec开源项目 – 多领域推荐系统的基准数据集

NineRec是一个用于评估可转移推荐的基准数据集套件，提供大规模多模态数据，旨在支持多领域推荐系统的研究与开发。

0

NineRec可转移推荐基准数据集多模态数据

Awesome Amortized Inference开源项目 – 摊销推断的综合资源库

关于摊销推断（Amortized Inference）的社区驱动资源库，提供了包括综述文章、软件工具、方法论论文和应用论文在内的资源列表，旨在为研究人员和开发者提供全面的信息和工具支持。

0

摊销推断资源库文献查找方法论社区驱动

Native Sparse Attention PyTorch – 高效稀疏注意力机制实现

高效稀疏注意力机制(NSA)的PyTorch实现，让模型训练更省时省力！该项目通过硬件对齐设计和原生可训练的特性，支持多种稀疏模式，灵活适配不同的深度学习任务，显著提高训练效率，减少资源消耗。

0

PyTorch实现深度学习模型训练资源消耗优化高效稀疏注意力机制

RAG 系统开源项目 – 高级信息检索与问答系统

用Langchain, ColBERT, Ragatouille 和 ChromaDB构建高级 RAG 系统，有效地提取 Mixtral 8x7B 生成高质量答案所需的所有相关上下文。该系统整合了多种先进技术，能够高效处理信息并生成准确的答案，适合多种应用场景。

0

RAG系统信息检索智能助手机器学习

MDI SAM Server开源项目 – 医学图像处理的实时分割服务器

一个基于SAM模型系列的图像分割服务器，专门用于医学图像处理，支持全幅面病理切片(WSI)和普通图像的实时分割。

0

Label Studio集成SAM模型医学图像处理实时分割服务器

rerun开源项目 – 高效计算机视觉可视化框架

Rerun 是一个基于 Rust 编写的开源计算机视觉可视化框架，旨在轻松记录和可视化图像、点云等数据。它提供直观的用户界面，支持多种数据类型的实时可视化，易于集成到现有的计算机视觉和机器学习项目中。Rerun 还支持跨平台运行，具备高性能渲染和历史回放功能，适用于调试、分析和验证计算机视觉任务。

0

GPU加速渲染实时数据可视化框架开源视觉化工具机器学习数据可视化

awesome-ai-ml-resources开源项目 – 全面的AI/ML学习资源库

这是一个GitHub开源项目，旨在为AI和机器学习爱好者提供丰富的学习资源和2025版学习路线图，帮助零基础用户快速入门并掌握相关技能。项目涵盖从基础到高级的AI/ML概念，提供实用的学习路线图，汇集100+免费课程、书籍和项目资源，并整合Google、Coursera、斯坦福等顶尖资源。

0

AI/ML学习资源免费课程学习路线权威课程与认证

RePlay开源项目 – 全面的推荐系统框架

RePlay是一个全面的端到端推荐系统框架，集成了最新的推荐算法模型。它提供了数据预处理和切分、多种推荐模型支持、超参数优化、全面的评估指标、模型集成和混合，以及从离线实验到在线生产的无缝切换。该框架支持CPU/GPU和分布式计算，适用于大规模推荐系统的构建和评估。

0

推荐系统框架数据预处理模型集成离线实验到在线生产

RAG Arena开源项目 – 多响应的RAG聊天机器人

RAG Arena是由Mendable.ai开发的开源Next.js项目，利用LangChain提供RAG聊天机器人体验，用户的查询可以获取多个响应。

0

LangChainNext.jsRAG聊天机器人多响应系统

sliceguard开源项目 – 检测数据问题片段的库

sliceguard 是一个用于检测结构化和非结构化数据中问题片段的库，只需少量代码即可实现。支持图像、文本、音频等多种非结构化数据，并能够生成交互式报告，快速识别数据中的问题。

0

交互式报告生成数据清洗数据预处理机器学习数据质量

Ivy开源项目 – 强大的机器学习框架代码转换工具

Ivy是一个支持PyTorch、TensorFlow、JAX、NumPy等主流框架之间代码互转的强大工具，能够帮助开发者轻松实现模型、工具和库的跨框架移植。它支持即时转换和延迟转换两种模式，并提供图追踪优化功能，以提升模型性能。

0

图追踪优化机器学习框架代码转换工具跨框架移植

FlashMLA开源项目 – 高效Hopper GPU MLA解码内核

FlashMLA是专为Hopper架构GPU设计的高效MLA解码内核，特别针对可变长度序列服务进行了优化。它结合了FlashAttention 2&3和cutlass两个加速项目的技术，显著提升了H800 GPU的计算性能。支持BF16精度，采用块大小为64的分页kvcache，使用CUDA 12.6，在H800 SXM5上实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能。

0

CUDA 12.6Hopper架构GPU开源项目深度学习模型加速

The Deck开源项目 – 开源跨平台移动纸牌游戏引擎

一款开源、跨平台的移动版回合制纸牌游戏引擎，用Flutter打造。它解决了线下聚会时找不到纸牌的烦恼，让手机成为游戏的“桌面”，大家围坐一起就能玩！

0

Flutter游戏开发开源纸牌游戏引擎跨平台游戏开发

Kolors开源项目 – 先进的文本生成图像模型

Kolors是一个由潜在扩散技术驱动的前沿文本到图像模型，经过数十亿对数据的训练，具备卓越的视觉质量、复杂语义和文本渲染能力，超越了众多开源和闭源模型。

0

创意设计广告素材生成文本生成图像模型艺术创作

smolmodels开源项目 – 用自然语言轻松构建模型

smolmodels是一个能够用自然语言和极少代码构建机器学习模型的工具，旨在简化模型创建过程，支持多种数据生成方式和多个提供商的LLM模型。

0

LLM模型适配机器学习模型生成工具自然语言构建模型

Evalchemy开源项目 – 强大的语言模型评测框架

Evalchemy 是一个强大的语言模型评测框架，统一整合了MTBench、WildBench、RepoBench等多个基准测试，支持多GPU并行评估和大模型分布式评测。它旨在提供一种高效、标准化的方式来评估和比较不同语言模型的性能。

0

多GPU评估标准化评估工具语言模型评测框架

Cray-LM开源项目 – 开源的LLM训练与推理平台

一个开源的LLM训练与推理一体化平台，让大模型的开发和部署变得简单高效。

0

OpenAI兼容接口分布式训练大模型推理开源LLM训练平台

ggh开源项目 – 让你轻松回忆和管理SSH会话的神器

ggh是一个便捷的工具，旨在帮助用户快速回忆和管理SSH会话。通过其强大的搜索功能，用户可以轻松找到常用的SSH连接，并高效管理复杂的SSH配置文件。它支持交互式和非交互式两种模式，能够适应多种使用场景，极大地提高了SSH操作的便捷性和效率。

0

SSH会话管理工具SSH配置文件搜索交互式SSH工具

SynthLang开源项目 – 超高效的AI提示语言

一款超高效的AI提示语言，通过优化与大型语言模型（LLM）的交互，大幅降低AI成本，提升处理速度。

0

AI提示语言优化与大型语言模型交互提升AI处理速度降低AI成本

PandaSQL开源项目 – 自然语言转SQL的高效工具

PandaSQL是一款基于AI大模型的自然语言转SQL引擎，支持多种数据库方言，通过上下文学习机制理解业务术语，显著提升查询效率。它在TPC-H基准测试中复杂查询生成准确率达到89%，支持MySQL、PostgreSQL等8种数据库方言，并在金融场景中提升查询效率50%。此外，PandaSQL具备动态语法修正、业务语义映射和查询性能优化等高级功能，适用于非技术人员数据查询、跨数据库迁移和慢查询智能分析等场景。

0

Python库数据分析工具数据可视化自然语言数据查询

Holbert开源项目 – 交互式定理证明器

Holbert是一个交互式定理证明器，旨在帮助用户进行数学定理的证明和理解复杂的数学理论。它提供了一个用户友好的界面，适合学习和教学，同时可以用于研究中的数学猜想验证。

0

交互式定理证明器教学辅助工具数学定理证明工具

Extract-chat开源项目 – 通过聊天提取网站信息的AI工具

Extract-chat是一个强大的AI工具，能够通过聊天的方式提取任意网站的信息。它的亮点包括集成Firecrawl技术，实时获取结构化数据，支持多种大型语言模型（LLM）提供商的灵活切换，采用Next.js和Vercel技术栈，确保了卓越的性能表现。

0

AI工具LLM支持结构化数据分析网站信息提取

WebOrigami/origami开源项目 – 强大的Web开发工具包

一个强大的Web开发工具包，让数据处理和网站构建变得轻松又高效。