一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
carefree-flow是一个基于OneFlow的深度学习库,旨在简化模型构建与训练过程,提供高效的计算性能和友好的API设计,支持动态计算图,适合开发者快速原型和高性能训练需求。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。
nanotron是一个开源工具,旨在简化大型语言模型的训练过程,提供了一种高效的3D并行训练方法,从而更好地利用计算资源。
吴恩达的课程,旨在引导学员完成LLM预训练流程,包括数据准备、模型架构配置、训练和评估。学员将学习如何使用HuggingFace获取训练数据,配置Transformer网络,运行训练并进行性能评估,同时探讨深度升级技术以降低计算成本。
在本地计算机上微调 LLAMA-v2(或任何其他 LLM)的最简单方法,提供用户友好的界面和高效的训练过程,支持多种语言模型,方便用户上传数据并进行微调。
AI Collective Tools是一个激动人心的开源社区,致力于创建一个全面的工具集合,供开发者、研究人员和爱好者访问和协作。该项目旨在促进创新和合作,使用户能够共享知识、资源和技术,从而提升AI领域的整体发展。
Megatron-LLM是一个专为大规模分布式训练设计的库,旨在高效支持语言模型的预训练和微调。它提供灵活的模型架构配置,并支持多种优化算法,使得用户可以根据需求进行优化和扩展,同时易于与其他深度学习框架集成。
Wale IDE是一个提供直观界面的平台,支持用户导入数据或创建新数据集,调节参数以优化提示,并查看提示执行历史。
LLM-Tuning 是一个专注于简化大语言模型(LLM)微调过程的工具,支持多种模型与数据集,旨在帮助用户轻松实现模型训练与评估。
这个开源项目的功能是使用文字生成、修改和谈论图片内容。可以实现快速生成图片,但需要消耗大量GPU资源。
这是一个由Arcee AI开发的领域适应语言建模工具包,旨在通过适应性训练提高模型在特定领域的表现。它支持多种语言模型的微调,能够兼容多种数据格式,且易于集成和扩展。
Simple-SimCSE是SimCSE模型的简单实现,支持无监督和有监督的训练方法,易于与流行的深度学习框架(如PyTorch)集成,并允许自定义训练和评估设置。
一个用纯C语言实现的项目,旨在训练GPT-2模型,代码量仅为1000行,具有高效的内存管理和性能优化,方便扩展和修改。
OneDiff是一个用于加速扩散模型的工具,提供了一种新的免训练、几乎无损的范式,显著提升模型的迭代速度。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
Wordware是一个基于网络的集成开发环境,专为大型语言模型(LLM)协调而设计,帮助跨职能团队构建AI应用。它作为LLM的后端,类似于一种新的编程语言,基于英语,同时融合了循环、逻辑和函数调用等概念。
LiteRT是Google AI Edge团队推出的高性能、可信赖的边缘AI运行时,旨在继承TensorFlow Lite的优势,并拓展其愿景,支持多种AI框架并优化资源利用率,方便集成和部署。