LongRoPE-扩展LLM上下文窗口至200万Tokens

LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens，显著提升长文本处理能力，同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值，以及采用渐进扩展策略，在256k训练长度内仅需1k微调步骤，从而实现高效的模型训练与优化。
LongRoPE的特点:
1. 扩展上下文窗口至2048k Tokens
2. 在256k训练长度内仅需1k微调步骤
3. 保持原始短上下文窗口的性能
4. 引入有效的搜索识别和位置插值
5. 采用渐进扩展策略

LongRoPE的功能:
1. 在大型语言模型中进行长文本处理
2. 提高微调模型的上下文理解能力
3. 在LLaMA2和Mistral上进行各种任务
4. 实现更高效的模型训练与优化

相关导航

BiPE开源项目 – 双层位置编码以改善长度外推

BiPE (Bilevel Positional Encoding) 旨在通过双层位置编码技术，提高模型在处理不同输入长度时的预测能力，尤其适用于序列建模任务。该项目通过增强位置编码的表达力，从而改善模型在长文本和变长输入上的性能。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。

Late Chunking-提升长文档检索准确性

Late Chunking是一种改进长上下文嵌入模型中上下文保存的技术，旨在提高检索准确性，尤其是对于较长的文档。通过保持跨块的上下文信息，该技术能够在处理长文本时显著提升信息检索的质量。

GPU Finder官网 – 帮助客户发现可用的GPU实例

GPU Finder是一个网站，帮助客户发现来自全球公共云提供商的可用GPU实例。它提供了不同云提供商提供的各种GPU、GPU服务器和GPU计算平台的信息。

Independent Component Alignment for Multi-Task Learning开源项目 – 独立成分对齐，提高多任务学习表现

该项目专注于对独立成分进行对齐，以改善多任务学习的效果。通过利用独立成分分析技术，提升多任务学习场景中的性能，适用于多种机器学习任务。

Visual-Language Prompt Tuning with Knowledge-guided Context Optimization开源项目 – 优化视觉语言提示的上下文

一种优化视觉语言提示上下文的方法，通过知识引导提升交互效果。

prompt-engineering开源项目 – 优化与大型语言模型的互动

本项目提供与大型语言模型（如OpenAI的GPT-4）互动的技巧和窍门，帮助用户设计有效的提示，并优化模型的响应质量。

Baichuan-13B开源项目 – 高效的开源大规模语言模型

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。

MoBA开源项目 – 提升长文本处理效率的注意力机制

MoBA（Mixture of Block Attention）是一种新型注意力机制，旨在提高大型语言模型（LLM）处理长文本上下文的效率和性能。它结合了稀疏注意力机制和块操作，通过将长文本分成多个块进行处理，减少了计算量。MoBA支持1M上下文长度，并采用参数无偏的Top-k门控机制，精准筛选关键信息。此外，MoBA可以无缝切换全注意力与稀疏注意力模式，在性能与效率之间取得平衡。MoBA兼容Transformer架构，可以替代标准注意力机制，嵌入现有Transformer模型中，提升长文本的处理效率。

NocoAI官网 – 无代码的GPT应用构建平台

NocoAI是一个无代码和无服务器的平台，使用户能够轻松构建、管理和部署GPT应用及模型，无需任何编码经验。它提供简单的用户界面来生成客户端或后端API，定义提示模板和变量，并创建微调模型。

SimCSE开源项目 – 对比学习的句子嵌入框架

SimCSE是一个简单的框架，旨在通过无监督和监督的方法进行句子嵌入的对比学习，从而实现高质量的句子表示。

openai-cookbook开源项目 – OpenAI API使用示例与指南

OpenAI Cookbook是一个集合，提供使用OpenAI API和模型的各种示例和指南，帮助用户有效地应用这些工具。

LangChain开源项目 – 开源AI大模型应用开发框架

LangChain是一个开源的AI大模型应用开发框架，旨在帮助开发者利用AI大模型构建智能应用。它提供强大的工具集，让用户能够结合外部数据和AI大模型的生成能力，快速开发具备记忆能力和上下文感知的程序。LangChain支持多种语言模型，提供丰富的API接口，简化集成与管理，同时支持多模态内容处理，适用于各种智能应用场景。

Orion-14B 系列模型官网 – 多语种大规模语言模型

Orion-14B 系列模型是一个具有140亿参数的多语种大模型，基于包含2.5万亿token的多样化数据集进行训练，涵盖中文、英语、日语、韩语等多种语言。该系列包括多种衍生模型，如对话模型、长文本模型、量化模型、RAG微调模型、Agent微调模型等，适用于多种自然语言处理任务。

LLaVA-LLaMA-3-基于Llama-3开源项目 – 8b的大型语言模型

LLaVA-LLaMA-3是基于Llama-3-8b大型语言模型(LLM)的LLaVA-v1.5复现项目，旨在提供预训练模型及相关的训练和演示脚本，方便研究人员和开发者进行自然语言处理任务的探索与应用。

HiP Attention开源 – 高效无训练长文本注意力机制

HiP Attention 是一种无需额外训练的后训练注意力机制，专为提升长文本处理效率设计。它通过分层剪枝技术实现子二次方复杂度，支持单GPU处理300万token的上下文长度，速度提升7.24倍，显著降低计算成本。项目基于OpenAI Triton实现，可无缝集成现有模型架构（如SGlang），适用于资源受限环境下的超长序列处理。

FastGPT开源项目 – 基于LLM的知识库问答系统

FastGPT是一个基于大型语言模型的知识库问答系统，提供开箱即用的数据处理和模型调用能力，使用户能够快速构建和管理AI知识库，集成多种API，简化数据处理流程。

长颈鹿版LongLLaMA-处理超长文本的高效模型

长颈鹿版LongLLaMA是一个专门针对上下文长度达到100K的情况下，保持模型性能的研究项目。它提出了一种新的训练目标，以有效处理长文本中的相关与无关的key-value空间结构，从而解决模型的分心问题，确保在处理超长文本时的高效性和准确性。

360 智脑官网 – 多模态生成AI大模型

360 智脑是由奇虎 360 公司独立开发的 AI 大模型，拥有数百亿参数规模和多模态生成能力。它支持文本生成、图像生成、文本到视频转换等功能，涵盖生成创作、多轮对话、逻辑推理等十大核心能力，旨在为用户提供强大的 AI 辅助工具。其训练基于 3.4 万亿 token 的语料库，支持多达 360K 的上下文长度，适用于复杂的 AI 交互场景。

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

RAG-GPT开源项目 – 快速搭建智能客服的开源解决方案

RAG-GPT 是一个基于 Flask 框架的开源项目，利用大语言模型（LLM）和检索增强生成（RAG）技术，快速搭建智能客服系统。项目支持多种知识库集成，包括网站、独立URL和本地文件，提供灵活配置和快速部署的能力。用户可以通过 Docker 或源代码部署，支持多种 LLM 模型（如 OpenAI、ZhipuAI、DeepSeek、Moonshot 等），并内置了管理控制台和聊天机器人前端，便于管理和测试。

Chinese Mixtral开源项目 – 中文混合专家大模型

中文Mixtral混合专家大模型，基于Mistral.ai发布的Mixtral模型，经过中文增量训练和指令精调，支持长文本处理与多种应用框架。

Skyvern AI开源项目 – 自动化浏览器工作流程

Skyvern AI 是一个通过大语言模型（LLM）和计算机视觉技术，自动化基于浏览器的工作流程的项目。它提供了一个简单的 API 端点，便于集成到现有系统中，完全自动化手动工作流程，取代脆弱或不可靠的自动化解决方案。