tinygrad 是一个设计极简的深度学习框架,旨在提供 PyTorch 和 micrograd 之间的平衡。它以简洁性为特点,方便用户添加新的加速器,并支持推理和训练。tinygrad 实现了自动微分和张量库,并提供优化器和数据加载器等组件,支持神经网络的构建和训练。其核心优势在于极简的设计和强大的延迟执行能力,已成功用于训练 LLaMA 和 Stable Diffusion 等神经网络模型,支持在 GPU、TPU 和 FPGA 等多种加速器上运行。
Autodidact是Matthew Johnson开发的一个教学性质的Autograd实现,旨在帮助用户理解和掌握自动微分的核心概念。该项目代码简洁明了,适合学习用途,能够处理基本的数学操作和函数,并深入揭示Autograd的内部工作原理。
JAX是由Google开发的开源数值计算库,专为研究者和开发者设计,结合了数值计算和机器学习。它支持自动微分与硬件加速,在Transformer模型训练中性能较PyTorch提升30%,广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图,支持并行计算和动态控制流,使代码既高效又灵活。
该项目实现了简单的梯度下降问题,支持Python、Numpy、JAX、C++和Mojo等多种编程语言,展示了Mojo的性能优势,代码结构易于理解和扩展,适用于机器学习和优化问题的基础。
Judi.jl是一个用于对向量、矩阵和张量表达式进行微分的库,支持高效的符号微分,提供简单易用的接口,适用于科学计算和机器学习领域的自动微分需求。
Taichi是一种嵌入在Python中的领域特定语言,旨在加速Python代码执行,使其运行速度接近C++甚至CUDA,提供高性能的计算能力,同时保持Python的灵活性和简洁性。它支持多种硬件平台,包括CPU和GPU,并内置自动微分功能,具有强大的并行计算能力,适合各类高性能计算任务。
从自动微分开始完全从头开始GPT-2训练,一个快速且功能完备的深度学习库,使用Python和NumPy编写
MLX 是 Apple 芯片上用于机器学习的阵列框架,由 Apple 机器学习研究团队提供。它提供了熟悉的 API 和强大的功能,支持多种计算模式和设备,旨在简化机器学习模型的构建与训练。
Collie是一个多功能的AI模型训练与部署框架,旨在简化机器学习模型的开发和管理过程。它基于PyTorch,结合了DeepSpeed和MegatronLM,避免使用复杂的外部库,并提供用户友好的接口和多种内置工具。
Predibase是一个低代码AI平台,使工程师和数据科学家能够轻松构建、优化和部署最先进的模型,从线性回归到大型语言模型,只需几行代码。它还提供了一种声明式方式,帮助工程师快速调优和服务任何开源机器学习模型或大型语言模型,并在私人云中托管先进基础设施。
一个自定义 Hugging Face 节点的开源项目,用于 Google Visual Blocks for ML,允许用户在无代码图形编辑器中创建机器学习管道,支持多种机器学习功能并与Hugging Face Serverless API集成。
一个可定制、简洁、用户友好且高效的工具包,用于训练和微调大型语言模型,支持多种训练和优化方法,以提高模型性能和稳定性。
Motion 是一个用于构建机器学习(ML)应用的轻量级框架,旨在减少确保模型、提示和其他有状态对象与数据保持最新的 MLOps 负担。它提供了一系列工具和功能,帮助开发者简化机器学习的部署与管理。
Zerve AI提供了一个数据科学和机器学习团队的统一空间,方便他们探索、协作、构建和部署数据科学与AI项目。
一个自托管的 GitHub Copilot,GitHub Copilot 的开源/本地替代方案,旨在提供灵活的开发体验。它可以在本地运行,无需依赖外部数据库或云服务,同时具备可视化界面和强大的API接口,方便集成到现有开发环境中。
LLaMA_MPS是一个专门为Apple Silicon GPU优化的项目,旨在高效地运行LLaMA模型的推理过程。该项目充分利用苹果硬件的加速能力,提供简洁的API接口,优化内存管理,确保用户能够快速高效地进行自然语言处理任务。
在本地运行开源分割任何模型的工具(受Ollama启发),提供原始SAM和高效SAM等分割任何模型,本地API(CLI、Python和HTTP接口),以及自定义功能,可托管自定义视觉模型
一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架,提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型,具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务,提供Python API和Docker部署支持。