SAGE-KV论文 – 高效长上下文推理方法

SAGE-KV（Self-Attention Guided KV Cache Eviction）是一种用于大语言模型（LLMs）高效推理的方法，特别适用于处理长上下文。它通过自注意力机制指导键值（KV）缓存淘汰，显著提高了内存效率和推理速度，同时保持与完整注意力模型相当的准确性。该方法特别适用于上下文窗口从128K到1M token的LLMs，解决了内存和延迟的瓶颈问题。

SAGE-KV的特点:

1. 通过自注意力机制压缩KV缓存
2. 在预填充后执行一次性的top-k选择
3. 保持与完整注意力模型相当的准确性
4. 提高内存效率和推理速度
5. 比StreamLLM高4倍的内存效率
6. 比Quest高2倍的内存效率

SAGE-KV的功能:

1. 在LLM推理中高效处理长上下文
2. 与Hugging Face Transformers框架集成
3. 与Meta的LLaMA和阿里巴巴的Qwen框架集成

相关导航

QwQ-32B官网 – 阿里开源的高效推理模型

QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型，基于 Qwen 系列，专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出，性能可能与 DeepSeek R1 相当，甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术，能够自我检查答案并形成关键“思考习惯”，支持长上下文处理（最多 131,072 tokens）。QwQ-32B 对本地算力要求较低，仅需 4 张 NVIDIA 4090 GPU 即可运行，适合普通企业和开发者使用。

Moxin-LLM开源项目 – 完全开源的大模型

Moxin-7B是一个在模型开放框架（Model Openness Framework）指导下完全开源的大模型，不仅开源了预训练代码、配置文件、训练和微调的数据集，还公开了中间检查点。训练数据集综合了SlimPajama、DCLM-BASELINE文本数据和the-stack-dedup的编程代码数据，支持32K的上下文长度，并采用了GQA、Sliding Window Attention、Rolling Buffer Cache等先进技术。

激活信标-压缩激活以扩展上下文感知

激活信标可以将LLM的原始激活压缩成更紧凑的形式，从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文，同时保留LLM在短上下文上的原始能力，显著提高了长上下文语言建模和理解任务的表现。

LongLoRA开源项目 – 长上下文大型语言模型的高效微调方法

一种超高效的微调方法，旨在扩展预训练大型语言模型 (LLM) 的上下文大小，而无需巨大的计算成本。它使用稀疏局部注意力替代密集全局注意力，显著节省计算量，同时在训练过程中只需两行代码即可实现，推理时可选。结合可训练的嵌入和归一化，增强LoRA的有效性，并在7B/13B到70B的LLaMA2模型上表现出强大的性能。此外，LongLoRA兼容FlashAttention-2等现有技术，并创建了LongQA数据集用于监督微调，包含超过3000个长上下文问答对。

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

memorag-qwen2-7b-inst官网 – 处理超长上下文的记忆模块模型

memorag-qwen2-7b-inst 是 MemoRAG 项目中的记忆模块模型，基于 Qwen2-7B-Instruct，能够处理长达 600K 标记的上下文。该模型主要用于生成检索线索和压缩超长上下文信息，旨在提升检索增强生成（RAG）框架的性能。通过扩展上下文长度和压缩技术，该模型在长程任务中表现出色，适用于处理大量信息的场景。

OpenBuddy-Llama3.1-8B-v22.1-131k官网 – 多语言AI模型，专注中文与跨语言任务

OpenBuddy-Llama3.1-8B-v22.1-131k 是由 OpenBuddy 团队开发的 AI 模型，基于 Meta 的 Llama3.1-8B 模型训练，支持多种语言，包括中文、英文、日文、韩文、法文、德文等。其上下文长度达 131072 tokens，通过 2500 万条合成数据训练，展现出与 GPT-3.5 Turbo 相似的认知和推理能力。该模型特别针对中文问答和跨语言翻译进行了优化，未来计划进一步提升中文编码效率和长文处理能力。

Phi-3.5-mini-instruct (128k)模型 – 轻量级高效指令生成模型

Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型，属于Phi-3系列。该模型专注于指令生成任务，具有3.8亿参数，支持128K超长上下文，训练数据达3.4T tokens。采用密集解码器-only Transformer架构，在512张H100-80G GPU上训练10天完成。支持22种语言，在推理任务上表现接近GPT-4水平，特别适合资源受限或延迟敏感的应用场景，如移动端部署和边缘计算。

QwQ-32B-Demo模型 – 体验QwQ-32B模型的交互式演示

QwQ-32B-Demo是Hugging Face平台上的一个交互式演示，基于QwQ-32B模型，专注于推理和问题解决任务，特别是在数学和编码领域表现优异。该演示提供了一个用户友好的文本输入界面，允许用户与模型互动，探索其强大的推理能力。QwQ-32B模型拥有32亿个参数，基于Transformer架构，支持长达131,072个token的上下文长度，并采用预训练、监督微调和强化学习等训练方法。

bipedal-robot-learning-collection开源项目 – 双足机器人的学习资源汇集

收集高质量双足机器人学习论文的项目，涵盖了从平衡、适应到技能掌握等多个方面，为相关领域的研究者提供了丰富的参考资料，助力双足机器人技术的探索和发展

AI Surge Cloud官网 – 低代码数据平台，提升数据灵活性

AI Surge Cloud 是一个低代码数据平台，帮助企业将数据灵活性和敏捷性提升 5-10 倍。它提供可靠的解决方案，克服数据生产力挑战，使企业能够更快地交付数据，增强生产力。

Xata官网

Xata是一种无服务器数据平台，简化了开发人员处理数据的方式。它具有类似电子表格的用户界面，使得查看和编辑数据变得容易，使用数据作为上下文回答问题的API调用简单，并且可以通过配置列权重和值增强器来调整搜索体验。它还具有慷慨的免费层，最多可提供750K条记录和15GB免费存储空间，包括OpenAI API调用。

Aperture开源项目 – Stable Diffusion注意力层可视化工具

Aperture 是一个专门用于可视化 Stable Diffusion 中注意力层的工具，特别设计用于可视化 UNet 中每个词在每一层的注意力分布。它支持 Stable Diffusion 2.1 和 Flux Dev 模型，并提供了完整的前端和后端代码，便于用户进行定制和进一步开发。

boostmark官网 – 为创业者提供创意营销点子

boostmark 是一个AI聊天机器人，旨在为自筹资金的创业者快速生成10个创意、成本低且实用的营销点子。通过简单的对话，用户可以获得灵感并推动其营销策略。

LastMile AI官网 – 用生成AI实现创意，无需切换平台

LastMile AI是一个为工程团队设计的AI开发平台，旨在快速原型和生产化生成AI应用。它提供一个统一的平台，访问多种生成AI模型，消除了在不同平台或API之间切换的需要。用户可以免费注册并立即开始使用，探索和访问广泛的生成AI模型，涵盖语言任务、图像和音频处理。LastMile AI还提供类似笔记本的环境、参数化模板的AI工作簿，并支持团队成员之间的协作与构建AI应用。

暂无评论

暂无评论...