激活信标-压缩激活以扩展上下文感知

激活信标可以将LLM的原始激活压缩成更紧凑的形式，从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文，同时保留LLM在短上下文上的原始能力，显著提高了长上下文语言建模和理解任务的表现。
激活信标的特点:
1. 将LLM的上下文长度扩展100倍
2. 在长上下文的语言建模和理解任务中取得卓越结果
3. 通过短滑动窗口处理长上下文
4. 保留LLM在短上下文上的原始能力
5. 以较低的成本在短时间内有效学习

激活信标的功能:
1. 处理长上下文的语言理解任务
2. 提高大型语言模型在特定任务上的性能
3. 用于自回归任务的训练
4. 在有限的上下文窗口内扩展模型的感知能力

相关导航

self-adaptive-llms开源项目 – 实时适应新任务的智能框架

self-adaptive-llms 是一个自适应框架，可以使大型语言模型实时适应未见过的任务，像是为模型装上“智能调节器”，从而在面对新任务时迅速调整，更好地完成任务。

TrucefulQA-提升LLM在数据集上的正确率

哈佛大学出品的新论文，旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制，使得大型语言模型在处理特定数据集时表现更佳。

HeartEcho开源项目 – 一个集成多功能的智能学习平台

HeartEcho 是一个集成了聊天室、语料库和炼丹炉的项目，旨在提供一个全面的环境用于实时交流、文本数据研究和模型训练。它支持大模型的增量学习，具备实时数据处理能力，并且提供用户友好的交互界面及可扩展的模块化设计。

RT-DETR开源项目 – 实时物体检测的高效解决方案

RT-DETR（Real-time DEtection Transformer）是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型，旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法，支持灵活的速度调整和多尺度特征处理，在COCO数据集上表现出色。

DALLE-reproduction开源项目 – 再现OpenAI的DALLE模型

DALLE-reproduction项目旨在重现OpenAI的DALLE模型，能够根据文本描述生成高质量图像，支持多种文本输入格式，并提供可扩展的模型架构和可调参数，以优化生成效果。该项目实现了多种训练和推理策略，适用于多种应用场景。

PrimeIntellect AI Prime开源项目 – 高效全球分布式AI训练框架

一个用于在互联网上高效、全球分布式训练人工智能模型的框架，具备弹性设备网络、异步分布式检查点、实时检查点恢复等特性，旨在优化全球范围内的AI模型训练过程

QwQ-32B-Demo模型 – 体验QwQ-32B模型的交互式演示

QwQ-32B-Demo是Hugging Face平台上的一个交互式演示，基于QwQ-32B模型，专注于推理和问题解决任务，特别是在数学和编码领域表现优异。该演示提供了一个用户友好的文本输入界面，允许用户与模型互动，探索其强大的推理能力。QwQ-32B模型拥有32亿个参数，基于Transformer架构，支持长达131,072个token的上下文长度，并采用预训练、监督微调和强化学习等训练方法。

SAGE-KV论文 – 高效长上下文推理方法

SAGE-KV（Self-Attention Guided KV Cache Eviction）是一种用于大语言模型（LLMs）高效推理的方法，特别适用于处理长上下文。它通过自注意力机制指导键值（KV）缓存淘汰，显著提高了内存效率和推理速度，同时保持与完整注意力模型相当的准确性。该方法特别适用于上下文窗口从128K到1M token的LLMs，解决了内存和延迟的瓶颈问题。

memorag-qwen2-7b-inst官网 – 处理超长上下文的记忆模块模型

memorag-qwen2-7b-inst 是 MemoRAG 项目中的记忆模块模型，基于 Qwen2-7B-Instruct，能够处理长达 600K 标记的上下文。该模型主要用于生成检索线索和压缩超长上下文信息，旨在提升检索增强生成（RAG）框架的性能。通过扩展上下文长度和压缩技术，该模型在长程任务中表现出色，适用于处理大量信息的场景。

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

EmotionPrompt-情感提示增强语言模型表现

EmotionPrompt是一种将原始提示与情绪刺激相结合的方法，旨在通过情绪提示增强大型语言模型（LLM）的表现。

元提示（meta-prompting）-提升LLM性能的全新方法

一种提升LLM性能的全新方法，能够把单一的LLM变身为全能的指挥家，通过高层元提示指令拆分复杂任务并分配给专家模型。

awesome-lifelong-learning-methods-for-llm开源项目 – 终身学习资源库，助力LLM发展

该项目是一个专注于大型语言模型（LLM）终身学习的资源库，收集了相关的精华综述、研究资源和论文，旨在促进LLM的持续学习能力和性能提升。

One-GLM开源项目 – 高效的GLM架构模型

One-GLM是基于GLM架构的项目，移植到了使用OneFlow后端进行训练，能够大幅提升性能和显存利用率。

Phi-3.5-mini-instruct (128k)模型 – 轻量级高效指令生成模型

Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型，属于Phi-3系列。该模型专注于指令生成任务，具有3.8亿参数，支持128K超长上下文，训练数据达3.4T tokens。采用密集解码器-only Transformer架构，在512张H100-80G GPU上训练10天完成。支持22种语言，在推理任务上表现接近GPT-4水平，特别适合资源受限或延迟敏感的应用场景，如移动端部署和边缘计算。

QwQ-32B官网 – 阿里开源的高效推理模型

QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型，基于 Qwen 系列，专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出，性能可能与 DeepSeek R1 相当，甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术，能够自我检查答案并形成关键“思考习惯”，支持长上下文处理（最多 131,072 tokens）。QwQ-32B 对本地算力要求较低，仅需 4 张 NVIDIA 4090 GPU 即可运行，适合普通企业和开发者使用。

OpenBuddy-Llama3.1-8B-v22.1-131k官网 – 多语言AI模型，专注中文与跨语言任务

OpenBuddy-Llama3.1-8B-v22.1-131k 是由 OpenBuddy 团队开发的 AI 模型，基于 Meta 的 Llama3.1-8B 模型训练，支持多种语言，包括中文、英文、日文、韩文、法文、德文等。其上下文长度达 131072 tokens，通过 2500 万条合成数据训练，展现出与 GPT-3.5 Turbo 相似的认知和推理能力。该模型特别针对中文问答和跨语言翻译进行了优化，未来计划进一步提升中文编码效率和长文处理能力。

BiLLa开源项目 – 开源中英双语LLaMA模型

BiLLa是一个开源的中英双语LLaMA模型，通过扩充中文词表和利用任务型数据进行训练，显著提升了中文理解和推理能力。在评测中，BiLLa在中英语言建模和推理任务上表现优异，不仅优于其他模型，还在解题和代码得分方面超越了ChatGLM-6B。

Moxin-LLM开源项目 – 完全开源的大模型

Moxin-7B是一个在模型开放框架（Model Openness Framework）指导下完全开源的大模型，不仅开源了预训练代码、配置文件、训练和微调的数据集，还公开了中间检查点。训练数据集综合了SlimPajama、DCLM-BASELINE文本数据和the-stack-dedup的编程代码数据，支持32K的上下文长度，并采用了GQA、Sliding Window Attention、Rolling Buffer Cache等先进技术。

LongLoRA开源项目 – 长上下文大型语言模型的高效微调方法

一种超高效的微调方法，旨在扩展预训练大型语言模型 (LLM) 的上下文大小，而无需巨大的计算成本。它使用稀疏局部注意力替代密集全局注意力，显著节省计算量，同时在训练过程中只需两行代码即可实现，推理时可选。结合可训练的嵌入和归一化，增强LoRA的有效性，并在7B/13B到70B的LLaMA2模型上表现出强大的性能。此外，LongLoRA兼容FlashAttention-2等现有技术，并创建了LongQA数据集用于监督微调，包含超过3000个长上下文问答对。

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

暂无评论

暂无评论...