OpenLLaMA是LLaMA模型的开源复现,基于RedPajama数据集进行训练,采用与LLaMA一致的预处理步骤、超参数设置、模型结构、上下文长度、训练步骤、学习率调度和优化器,旨在提供一个高效且可访问的语言模型。
该项目汇集了多个开源的中文预训练语言模型及其对应的指令数据集,旨在为中文自然语言处理提供丰富的资源。
用 Groq API 实现 Deeplearning.ai 定义的 4 种从头实现的 agentic 模式的项目,提升大型语言模型(LLM)的响应性能,支持自定义工具访问外部信息,规划复杂任务的执行步骤,以及多代理协作完成任务。
WebCPM是一个专注于提升搜索引擎能力的开源项目,已被ACL 2023接收。
基于预训练语言模型的零样本和少样本NLP的教程,提供了一系列的示例和实用工具,用于帮助研究人员和工程师理解和应用这些技术。
基于Andrej Karpathy的GPT-2实现和训练,添加大量注释以帮助理解模型原理,计划逐步增加更多功能。
NanoLLM 是一个专门为大语言模型(LLM)提供优化本地推理的平台,支持 HuggingFace 风格的 API,具备量化、视觉/语言模型、多模态Agent、语音处理、矢量数据库集成和检索增强生成(RAG)等功能。
一个基于斯坦福的 Alpaca,并进行了中文优化的大语言模型项目,愿景是成为能够帮到每一个人的LLM Engine。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型