LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens,显著提升长文本处理能力,同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值,以及采用渐进扩展策略,在256k训练长度内仅需1k微调步骤,从而实现高效的模型训练与优化。
百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。
FATE-LLM是基于FederatedAI开发的联邦学习框架,支持大语言模型的分布式训练,旨在促进AI技术在保护知识产权和隐私的前提下的应用。该项目通过联邦学习架构,使得多方在不共享原始数据的情况下,能够协同训练出高效的AI模型,有效应对数据隐私和合规性挑战。
LLMFarm是一个基于GGML库构建的项目,支持在iOS和MacOS平台上离线运行多个大语言模型,提供用户友好的界面和高效的模型加载与推理功能。
ChatGPT.nvim是一个用于与OpenAI GPT-3聊天机器人的Neovim插件,提供了一个易于使用的界面,让用户能够探索GPT-3及其自然语言处理功能。
由百川智能开发的一个开源可商用的大规模预训练语言模型,支持中英双语,基于Transformer结构,训练于约1.2万亿tokens,具有70亿参数,提供4096的上下文窗口长度,在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
Zgi.ai致力于简化大型语言模型(LLM)应用的构建过程,为开发者和企业提供必要的工具和资源,帮助他们将梦想转化为现实,打破技术限制,实现前所未有的可能性。
fairseq是一个用于序列建模的开源工具包,支持多种自然语言处理和语音处理任务。
Qwen是阿里通义千问开源的多语言处理框架,支持多种自然语言处理任务,提供高效的模型推理和友好的用户接口。它兼容多种开发环境,旨在为开发者提供高效构建语言模型的工具,支持广泛的语言覆盖与任务适配,帮助解决全球化场景下的文本处理需求。最新的720亿参数版Qwen-72B和Qwen-72B-Chat在多个任务上超越LLaMA2-70B和GPT系列模型。
专注于训练和微调中等大小 GPT 模型的最简仓库,是 karpathy/nanoGPT 的一个分支,并提供了最大更新参数化(muP)的最小实现,旨在简化用户的使用体验和模型的优化过程。
一个用于语言信息思维的计算框架,通过概率程序与自然语言相结合,破解世界模型。
Lorai是一个平台,允许用户使用自己的品牌资产训练生成AI模型,以在几秒钟内创建独特内容。用户可以在浏览器中轻松训练低秩适应(LoRAs),无需计算资源,快速生成高质量设计元素。
Slideflow是一个用于组织学图像分析的深度学习流水线,支持Tensorflow/Keras和PyTorch。它提供了一个便捷的环境来构建和管理图像分析工作流程,具有良好的可扩展性,可以满足各种图像分析需求。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型