上下文位置编码（CoPE）-基于上下文的灵活位置编码

CoPE是一种新的位置编码方法，允许根据上下文来调整位置，以关注更高抽象级别的序列元素。它能够根据需要计算每个注意力机制头的距离，解决标准Transformer无法解决的计数和复制任务，并在语言建模和编码任务上拥有更好的困惑度（PPL）。
上下文位置编码（CoPE）的特点:
1. 可以根据需要计算每个注意力机制头的距离
2. 解决标准Transformer无法解决的计数和复制任务
3. 在语言建模和编码任务上拥有更好的困惑度（PPL）

上下文位置编码（CoPE）的功能:
1. 用于处理语言模型中的位置编码
2. 改善复杂序列数据的注意力机制
3. 执行选择性复制和计数任务

相关导航

Self-Translate开源项目 – 提升多语言模型性能的技术

Self-Translate是一种技术，通过利用多语言语言模型的少样本翻译能力，能够有效地提高多语言语言模型的性能，克服对外部翻译系统的依赖，尤其在非英语输入场景下表现优越。

BakLLaVA开源项目 – 多模态能力增强的语言模型

将SOTA多模态能力融入语言模型，改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。

LLaMA-Adapter开源项目 – 高效的模型适配器，支持多模态功能

LLaMA-Adapter V2 是一个高效的模型适配器，能够在短时间内完成训练并支持多模态功能，包括图像解释和问答。

SciBench-评估语言模型在科学问题解决中的能力

SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试，研究发现当前的语言模型在整体性能方面表现不佳，仅得到35.80%的分数。

Data Gemma开源项目 – 开源模型库，解决语言模型幻觉问题

Data Gemma是一个开源模型库，旨在通过谷歌数据共享平台的海量真实世界统计数据，帮助解决语言模型的幻觉问题，实现语言模型的现实世界数据锚定。

爱丽丝在可微仙境的冒险-神经网络入门书籍，以爱丽丝探险为比喻

以爱丽丝漫游“可微分”仙境为比喻，向读者介绍神经网络领域的入门书，涵盖自动微分优化函数、序列、图、文本和音频处理的设计技术。

InfiniteHiP论文 – 高效长文本处理注意力机制

InfiniteHiP 是一种高效的后训练注意力机制，旨在解决大型语言模型（LLMs）在处理长上下文时的计算和内存挑战。它通过动态消除无关上下文token和优化内存管理，显著提升长文本处理的速率和效率。无需额外训练即可扩展模型的上下文长度，适用于各种长文本任务，如语言理解、推理和文本生成。

mamba-minimal开源项目 – Mamba的轻量化实现

一个Mamba的最小化实现。Mamba是CMU和普林斯顿的研究成功。这种SSM架构在语言建模上与Transformers不相上下，而且还能线性扩展，同时具有5倍的推理吞吐量。

DeepSeek-R1官网 – 高效低成本的大型语言模型

DeepSeek-R1 是由 DeepSeek AI 开发的大型语言模型，集成强化学习和链式思维能力，旨在通过 AWS 提供高效的 AI 解决方案。该模型在推理、数学和编码任务中表现出色，且成本比同类模型低 90-95%。它可以通过 Amazon Bedrock 和 SageMaker 等服务部署，适合构建生成式 AI 应用。

MIDI-3D开源项目 – 单图转360度3D场景

MIDI-3D是一个开源项目，专注于将单张图像转化为360度3D场景，利用先进的AI技术实现高保真度的3D场景生成。该项目通过智能分割输入图像，识别场景中的独立元素，并基于多实例扩散模型和注意力机制生成3D场景，具有强大的全局感知能力和细节表现力。在40秒内完成3D场景生成，且对不同风格的图像具有良好的泛化能力。此外，它支持对场景中的多个物体进行3D建模，避免了逐个生成再组合的复杂过程。

激活信标-压缩激活以扩展上下文感知

激活信标可以将LLM的原始激活压缩成更紧凑的形式，从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文，同时保留LLM在短上下文上的原始能力，显著提高了长上下文语言建模和理解任务的表现。

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

awesomeMLSys开源项目 – 精选机器学习系统资料集合

分享一份精选机器学习系统的入门资料集合，收集了一系列有关注意力机制、性能优化、量化、长上下文长度和稀疏性等方面的论文、视频和代码库。

ModernBert模型 – 替代BERT的高效编码器模型

ModernBert是由Hugging Face、NVIDIA和Johns Hopkins University联合开发的新型编码器模型，旨在取代原始BERT模型。它显著提升了效率，支持长达8192个token的上下文处理，并提供基础版（149百万参数）和大型版（395百万参数）两个版本。ModernBert在分类、检索和问答任务中表现出色，特别适合处理复杂任务。

QwQ-32B官网 – 阿里开源的高效推理模型

QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型，基于 Qwen 系列，专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出，性能可能与 DeepSeek R1 相当，甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术，能够自我检查答案并形成关键“思考习惯”，支持长上下文处理（最多 131,072 tokens）。QwQ-32B 对本地算力要求较低，仅需 4 张 NVIDIA 4090 GPU 即可运行，适合普通企业和开发者使用。