一个开源工具包,用于预训练、微调和部署大型语言模型(LLMs)和多模态大语言模型。该工具包基于LLaMA-Adapter,提供更高级的功能,支持社区贡献与扩展。
Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库,集成了多项关键创新,包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果,支持多种模型架构,优化微调过程,并提供系统性能的显著提升。
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。通过 Int4 量化技术,MiniCPM 实现了在手机端的部署能力,提供与人类说话速度相当的流式输出速度。MiniCPM 在中文、数学和编程能力方面表现优异,超越了 Llama2-13B、MPT-30B 和 Falcon-40B 等模型。此外,基于 MiniCPM-2B 开发的多模态模型 MiniCPM-V 在同规模模型中表现最佳,支持高效参数微调和全参数微调,二次开发成本较低。
用Go语言编写的云原生AI网关,作为OpenAI的代理服务,可以创建具有速率限制、费用限制和生存时间限制的API密钥,实现细粒度的访问控制,支持多个大型语言模型,并简化LLM(Large Language Model)的运维操作。
Okrolearn是一个由Okerew创建的机器学习库,旨在简化机器学习模型的构建和训练过程。它提供了一系列工具和功能,帮助开发者快速实现和优化机器学习算法,适用于研究和实际应用。
TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的'Aha moment',并提供完整实验日志和开源代码,方便复现和学习。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
ScaleLLM是一个面向大型语言模型高性能推理的系统,经过仔细设计,能够满足产业级环境的需求。
llama-jax是LLaMA的JAX实现,旨在利用Google Cloud TPU进行训练,提供高效、灵活的模型训练解决方案。
stablediffusion api是一个强大的API,旨在让开发者专注于构建下一代AI产品,而无需担心GPU的维护。它提供了便捷的接口,支持用户生成和微调Dreambooth Stable Diffusion,极大地简化了图像生成的流程和技术门槛。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
旨在探索一种新的实验性模型训练流程,以训练高性能的特定任务模型,将训练过程的复杂性抽象化,使从想法到性能优越的完全训练模型的过程尽可能简单。用户只需输入任务描述,系统将从头开始生成数据集,将其解析为正确格式,并微调LLaMA 2模型。
llm.mojo是Andrjey Karpathy将大型语言模型(LLM)最小化代码移植到Mojo编程语言的版本,旨在提供高效的模型推理和简化的学习体验。
ModuleFormer是一种基于MoE(Mixture of Experts)的架构,旨在提高大型语言模型的计算效率和可扩展性。其设计允许通过稀疏激活专家子集来实现与密集型语言模型相同的性能,同时在吞吐量上超过两倍。此外,它对灾难性遗忘具有免疫力,能够通过引入新专家来学习新知识,并且支持对特定微调任务的专家进行专注,便于轻量级部署。
一个提供使用Argilla工具构建AI的简单示例的项目,主要功能包括数据标注、模型性能优化等,特色在于通过Jupyter Notebook形式提供直观的操作指导