Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

Forgetting Transformer (FoX)的特点:

1. 遗忘门集成：在 Softmax 注意力中加入遗忘门，动态管理注意力权重。
2. 性能提升：在长文本建模、长度外推和短文本任务上表现优于标准 Transformer。
3. 长上下文表现：在长上下文下游任务上与标准 Transformer 表现相当。
4. 兼容性：与 Flash Attention 算法兼容，支持高效计算。
5. 简化设计：无需位置嵌入，减少模型复杂性。
6. 长上下文能力：通过“针在干草堆”测试等分析，显示出相对于循环模型的优越长上下文处理能力。
7. Pro 块设计：引入“Pro”块，结合循环序列模型的常见组件，显著提升 FoX 和 Transformer 的性能。

Forgetting Transformer (FoX)的功能:

1. 语言建模：特别适用于语言建模和其他序列任务，如文本生成和序列分类。
2. 长文本处理：通过遗忘门管理长序列，过滤掉不相关的信息，优化注意力分配。
3. 代码获取：用户可通过 GitHub 仓库获取官方 PyTorch 实现。
4. 安装与使用：仓库提供安装说明，支持作为 Python 包安装（推荐 Python 3.10 以上），也可克隆仓库进行编辑式安装。
5. 模型训练与评估：提供 LongCrawl64 数据集的训练代码，eval/ 子目录下评估代码，支持恢复训练，保存为 Hugging Face 格式。

相关导航

form-builder开源项目 – 动态表单构建工具

form-builder 是一个动态表单构建工具，允许用户在 web 应用程序中无缝创建、自定义和验证表单。它支持多种输入类型，并利用 Zod 库进行实时验证，确保数据的完整性。该项目拥有高度的社区活跃度，已有 196 个分支。

Sarsen开源项目 – SAR传感器数据处理工具

Sarsen是一个专注于合成孔径雷达（SAR）传感器的算法和实用工具的项目。它提供了先进的SAR传感器数据处理算法，包括SAR数据的处理、分析和应用支持。该项目旨在促进SAR技术的研究和开发，支持环境监测、灾害管理和响应等多种应用场景。

Open-R1-Multimodel开源项目 – 多模态强化学习模型

Open-R1-Multimodel是基于Huggingface的Open-R1和deepseek-ai/DeepSeek-R1实现的多模式R1模型。它集成了Qwen2-VL系列、Aria-MoE等VLM transformers，并开源了首批8k专注于数学推理的多模态强化学习训练示例。数据由GPT4o创建，具有推理路径和可验证答案，基于Math360K和Geo170K数据集。

Infinite Bookshelf开源项目 – 快速生成书籍的AI工具

Infinite Bookshelf 是一个基于 Groq 平台和 Llama3 模型的流式应用程序，能够从一个简单的提示快速生成书籍。它特别适合非小说类书籍的创作，能够在几秒钟内生成每一章的内容。项目使用 Llama3-8b 和 Llama3-70b 两种模型，大模型负责构建书籍结构，小模型负责生成具体内容。生成的书籍内容采用 Markdown 格式，支持表格、代码等多种元素，并且可以下载包含整本书籍内容的文本文件。项目展示了 AI 在内容创作方面的潜力，未来将支持生成高质量的小说书籍。

metavoice-src开源项目 – 强大的文本转语音模型

MetaVoice-1B 是一个拥有1.2亿参数的文本转语音(TTS)模型，专注于生成情感丰富、节奏自然和音调准确的英语语音。它支持零样本克隆美国与英国口音，并支持跨语言的声线定制。模型基于100K小时的语音数据进行训练，支持任意长度文本的合成，并提供了丰富的API和Web UI供用户使用。项目采用Apache 2.0开源许可，用户可以无限制地使用。

CleanMyWechat开源项目 – 自动清理微信缓存工具

CleanMyWechat是一款专为PC端微信设计的自动清理工具，能够高效删除微信自动下载的大量文件、视频和图片等缓存数据，从而显著释放存储空间。该工具支持识别多个微信账号，允许用户选择自定义路径进行清理，并且删除的文件会被放置在回收站中，以防止意外删除。此外，CleanMyWechat兼容Windows系统中的所有微信版本，确保广泛适用性。

Awesome-Long2short-on-LRMs开源项目 – 大模型长文本压缩技术集合

这是一个专注于大推理模型的long2short方法的精选集合，旨在帮助研究人员和开发者快速了解和应用最新的长文本压缩技术，从而加速模型推理效率。项目汇集了2025年最新的20余篇相关研究论文，并提供代码和数据集资源，方便复现和研究。此外，项目还分类整理了训练基和无训练两种方法，使得查找和应用更加便捷。

RAG-GPT开源项目 – 快速搭建智能客服的开源解决方案

RAG-GPT 是一个基于 Flask 框架的开源项目，利用大语言模型（LLM）和检索增强生成（RAG）技术，快速搭建智能客服系统。项目支持多种知识库集成，包括网站、独立URL和本地文件，提供灵活配置和快速部署的能力。用户可以通过 Docker 或源代码部署，支持多种 LLM 模型（如 OpenAI、ZhipuAI、DeepSeek、Moonshot 等），并内置了管理控制台和聊天机器人前端，便于管理和测试。

OpenCV开源项目 – 开源计算机视觉库

OpenCV是一个开源的计算机视觉和机器学习软件库，提供了丰富的图像处理和计算机视觉算法。它支持多种编程语言和跨平台运行，适用于各类AI应用，包括图像处理、物体识别、视频分析等。OpenCV还针对不同硬件架构进行了优化，并支持深度学习模块，可加速矩阵乘法等操作。

AI Engineer Toolkit开源项目 – 一站式AI开发资源库

AI Engineer Toolkit 是一个一站式AI开发资源库，旨在帮助开发者从零到一打造生产级AI应用。它涵盖了从模型开发到部署的全栈工具，提供了超过20种框架供选择，并且包含丰富的示例项目，激发开发者的灵感。该项目免费开源，特别适合新手快速上手。

Kinetix开源项目 – 基于JAX的2D物理强化学习框架

Kinetix是一个用JAX编写的2D物理环境中的强化学习框架，能够统一表示多种基于物理的任务，通过生成数百万任务来训练大型通用强化学习代理。该框架提供高效的数值计算和自动微分功能，支持复杂的2D物理环境任务，并且具有灵活的API，方便用户自定义任务和代理。

XAIgent开源项目 – 智能代理开发框架

XAIgent是一个专为智能代理开发设计的开源框架，旨在为开发者提供构建高效代理系统的可靠平台。它支持复杂任务的自动化处理与实时决策，适用于多种专业场景。

AI-Researcher开源项目 – 全流程自动化科学研究工具

AI-Researcher是香港大学数据科学实验室推出的开源自动化科学研究工具，基于大型语言模型（LLM）代理实现从研究想法到论文发表的全流程自动化。支持用户在两种模式下操作：一是提供详细的研究想法描述，系统据此生成实现策略；二是提供参考文献，系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能，支持多领域研究，基于开源的基准测试套件评估研究质量。

Chat2DB开源项目 – AI驱动的智能SQL客户端

Chat2DB是一款集成了AI功能的智能通用SQL客户端和数据报告工具，旨在帮助用户更高效地编写SQL查询、管理数据库、生成报告和探索数据。它支持多种数据库，包括MySQL、PostgreSQL、Oracle等，并提供智能SQL生成、数据库管理、智能报告生成等功能。Chat2DB提供社区开源版、本地版和专业版，满足不同用户的需求。

TGS-SaltNet开源项目 – 高效盐体识别模型

TGS-SaltNet是Kaggle TGS盐体识别挑战中排名第22的解决方案，基于深度学习技术，专门用于高效识别地质勘探中的盐体。该项目采用了优化的神经网络架构，支持高性能的模型训练和推理，并能够处理大规模数据。

暂无评论

暂无评论...