LLMTuner是一个高效的工具,旨在通过简化的微调流程,使用户能够在几行代码内调整大语言模型(LLM)。它支持多种预训练模型的加载和微调,提供灵活的超参数调整功能,同时拥有友好的用户界面,便于用户快速上手。该项目的可扩展性强,适用于不同的应用场景。
VocabCLI 是一个强大的命令行工具,旨在帮助用户生成和管理词汇表,同时支持多种自然语言处理任务。它的用户友好界面使得词汇处理变得简单高效,适用于多种语言,并提供丰富的示例和用法指南。
本研究探讨了通过随机初始化训练的小型变压器如何有效地学习加法、乘法和平方根等基本算术运算,通过下一个令牌预测目标来实现。
该项目演示了如何利用大模型进行蒸馏来构建小模型,从而在某些领域实现比大型模型更强的推理效果。
Computer Vision Recipes 是一个专注于计算机视觉领域的项目,提供了最佳实践、丰富的代码示例和详细的文档支持。它涵盖了多种计算机视觉任务,如图像分类、目标检测等,旨在帮助开发者快速实现和集成计算机视觉解决方案。项目易于上手和扩展,适用于学习、开发、原型设计、教育培训以及现有项目的集成。
ExLlamaV2是一个高效的推理库,旨在让用户能够在现代消费级GPU上本地运行各种大型语言模型(LLMs),并优化内存使用,以实现快速推理。
一个用于搭建类似Perplexity的问答引擎的项目,结合了多种先进的技术和模型。
允许用户将代码项目转换为 LLM(Large Language Model)提示的本地工具,专注于安全性、便捷性和用户体验。
该应用程序是Anthropic的Claude聊天应用程序中Artifacts UI的开源版本,允许用户安全地运行和管理AI生成的代码,提供了一系列强大的功能以支持多种编程语言的执行。
这是一个逐步指导的教程,教你如何从零开始构建Picotron分布式训练框架。通过本教程,你将深入了解AI模型训练中的分布式处理,适合初学者和有经验的开发者,提供丰富的代码示例和详细的说明。
Fast-LLM是一个开源库,旨在加速大型语言模型的训练。它具有快速的训练速度、良好的可扩展性,支持多种模型架构,并且提供易于使用的接口,适合研究和工业应用。
旨在创造机器人能力的工具集和基于LLM-JSON的语言,允许生成运动动画、个性集成以及高度自治的新技能,控制各种电子组件,包括Arduino、Raspberry Pi、伺服马达、摄像头、传感器等。其使命是让先进的智能机器人技术对每个人都可访问。
Bootstrap RAG是一个便捷的项目框架,旨在帮助开发者快速搭建语义搜索和RAG(Retrieval-Augmented Generation)应用。它提供了常规模板代码,减少了开发时间,并且易于扩展与定制,适合各种项目需求。
phidata是一个基于GPT-4o实现的LLM OS项目,旨在通过大语言模型协调和优化资源,以解决各种问题。该项目不仅具备强大的文本处理能力,还能够进行图像、视频和音乐的生成与处理,并具备深度思考和自我完善的能力,适用于多个领域。
nanoRWKV是RWKV语言模型的轻量级实现,专为快速实验与多种语言处理任务设计,兼容RWKV架构,基于nanoGPT优化了性能和效率,易于扩展和自定义。
基于人工智能的代码生成工具,可以根据自然语言描述生成完整的代码,该工具利用了Qwen大语言模型,可以提供高质量、准确的代码生成结果。
SimCSE是一个简单的框架,旨在通过无监督和监督的方法进行句子嵌入的对比学习,从而实现高质量的句子表示。
这是一个用于向量相似性搜索的性能库,利用本地自适应向量量化和高度优化的索引与搜索算法,实现了在数十亿个高维向量上进行高精度和极快速度的搜索,同时比替代品占用更少内存。
EcoAssistant是一个旨在以更经济和准确的方式使用大型语言模型(LLM)的工具,能够提高代码相关问题的回答准确性,提供灵活的接口以支持不同的应用场景,同时优化资源使用,降低计算成本。
llama2.scala是Andrej Karpathy的llama2.c在Scala 2中的移植,提供了一种在一个文件中实现Llama 2推理的方式。
实现了用Numpy库构建全连接神经网络和基于注意机制的transformer模型的最小化版本,代码行数少于650行,是一份值得参考的简化神经网络实现案例
Jax GPT是对Karpathy的nanoGPT的重写,基于Jax和Flax框架构建,旨在提供高效的文本生成能力,支持快速训练和推理,具有易于扩展和修改的架构,能够充分利用高性能的并行计算。
一个Python库,可轻松跟踪和可视化LLM的提示和输出。用户可以识别有效的策略,高效解决问题,并确保可重复的工作流程。
GPT Core用于创建和训练先进的大型语言模型(LLM),着重强调了其快速性能,可以在仅20分钟消费级GeForce RTX™ 4090上将自定义的1.23亿参数LLM预训练到约3.5的验证损失。
一个用于强化学习与人工反馈(RLHF)的框架,旨在简化不同 RLHF 技术的集成,提供模块化和组合式的实验能力,适用于研究人员和实践者。该框架通过模块化设计,支持多种实验能力,灵活配置选项,方便用户根据不同需求进行调整和优化。
Classy-Fire是一个基于Azure OpenAI的LLM API的预训练多类文本分类方法,采用巧妙的参数微调和提示设计,能够高效地处理各种文本分类任务。
一个展示GPT-4潜力的实验项目,通过GPT-4驱动,实现自主目标完成。
大语言模型集成工具LangChain的TypeScript版本,支持在不依赖Python的情况下实现各种功能,如Embeddings、文本分割等。
一个简单易懂的AI代理示例项目,展示了如何通过模型上下文协议(MCP)连接开源大语言模型(如Llama 3、OpenAI或Google Gemini)和SQLite数据库,帮助开发者快速上手AI代理开发。
FauxPilot 是一个开源项目,旨在构建一个可以在本地托管的 GitHub Copilot 服务器。它基于 NVIDIA Triton 推理服务器,并使用 SalesForce CodeGen 模型,允许用户私密使用代码生成工具,同时提供开放源代码的灵活性。