AI开源项目 | 第 8 页

TURN 是一种用于优化大型语言模型（LLMs）温度参数的方法，旨在提高数学问题求解和代码生成等任务的性能。它通过分析生成文本的熵拐点来自适应地选择最佳温度，无需特定验证数据，高效且有效。TURN 在多样本推理场景中表现出色，特别是在数学问题（如 MATH 数据集）和代码生成任务（如 MBPP 数据集）上。

0

代码生成大型语言模型优化数学问题求解温度参数调整

RLSP开源 – 增强大型语言模型推理能力的后训练框架

RLSP（强化学习通过自对弈）是一个后训练框架，旨在通过强化学习指导大型语言模型（LLM）进行更有效的推理搜索，从而提升其在复杂问题解决中的表现，并涌现出类似人类的复杂推理行为。该框架通过解耦探索奖励和结果正确性奖励，利用强化学习帮助模型进行更有效的推理搜索，使模型在复杂问题解决中表现得更像人类。RLSP包括三个核心步骤：监督微调（SFT）、探索奖励和强化学习训练。在基准测试中，RLSP显著提升了模型在数学和竞赛问题上的表现。

0

LLM后训练优化复杂问题解决工具大型语言模型推理增强框架强化学习自对弈训练

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

0

Transformer模型改进序列任务开源项目语言建模

Q-Filters开源 – 无需训练的KV缓存压缩方法

Q-Filters 是一种无需训练的 KV 缓存压缩方法，适用于大型语言模型。它利用查询和键向量的几何特性，通过上下文无关的简单投影高效压缩 KV 缓存，无需额外训练。该方法与 FlashAttention 兼容，在长上下文任务中表现出色，实验显示在高压缩比下仍能保持良好性能，例如在针挑草堆任务中达到 99% 准确率（压缩比 32 倍），并在文本生成中比 Streaming-LLM 减少高达 65% 的生成困惑度下降。

0

FlashAttention兼容KV缓存压缩方法大型语言模型优化长上下文任务处理

HieroLM开源 – 基于LSTM的埃及象形文字恢复模型

HieroLM 是一个基于长短期记忆（LSTM）网络的语言模型，专门用于恢复埃及象形文字。该模型将恢复任务建模为下一词预测问题，利用上下文信息来提高准确性。它能够有效处理严重损坏或完全缺失的象形文字，克服了传统计算机视觉方法的主要局限性。实验显示，即使在数据量有限和上下文信息稀缺的情况下，HieroLM 仍能保持良好的性能，展示了其在考古学领域的应用潜力。

0

LSTM语言模型埃及象形文字恢复模型考古学AI工具

R1-Searcher开源 – 提升LLM搜索能力的强化学习框架

R1-Searcher 是一个两阶段强化学习框架，旨在提升大型语言模型（LLM）的搜索能力。该框架通过结果导向的奖励机制工作，无需依赖过程奖励或知识蒸馏。研究表明，它允许 LLM 在推理过程中自主调用外部搜索系统，整合外部知识来解决知识密集型查询。在某些基准测试中，R1-Searcher 的表现显著优于现有的检索增强生成（RAG）方法，甚至与闭源模型（如 GPT-4o-mini）相当或更优。

0

LLM搜索能力提升开源项目强化学习框架检索增强生成

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs开源 – 提升多代理LLM系统鲁棒性

该项目研究多代理大型语言模型（MoA）架构在面对欺骗性代理时的脆弱性，并提出了多种无监督防御机制（如“Dropout & Cluster”和“Cluster & Filter”）以恢复性能损失。研究通过基准测试（如AlpacaEval 2.0和QuALITY）评估了欺骗性代理对系统的影响，并分析了欺骗性代理类型、数量、聚合器模型强度等因素。项目旨在提高多代理LLM系统的鲁棒性和安全性，适用于需要高可靠性的应用场景。

0

多代理LLM系统开源项目欺骗性代理防御自动问答系统

Inductive Moment Matching (IMM)开源 – 高效稳定的图像生成模型

Inductive Moment Matching (IMM) 是一种新型生成模型，能够在单阶段从零开始训练，实现高效且稳定的样本生成。它利用随机插值器和时间相关的边缘分布，学习一个单步采样器，将分布从时间 t 转换到 s < t。通过最小化不同起始时间导出的时间 s 分布之间的最大平均差异 (MMD)，IMM 保证分布级别的收敛性。在图像生成任务上，IMM 取得了最先进的性能，例如在 ImageNet-256x256 上仅需 8 步推理，FID 达到 1.99。

0

图像生成模型少步推理开源项目高效样本生成

BD3-LM开源 – 结合自回归与扩散模型的语言模型

BD3-LM（Block Diffusion Language Model）是一种创新的语言模型，旨在通过结合自回归模型和离散扩散模型的优点，显著提升语言建模任务的性能。它通过在token块上执行自回归，并在每个块内进行离散扩散，实现了灵活且高效的建模方式。该模型特别适用于生成任意长度的序列，展现了其在自然语言处理领域的潜力。

0

扩散模型文本生成自回归模型自然语言处理

MoC（Mixtures of Text Chunking Learners）开源 – 提升RAG系统性能的文本分块框架

MoC是一个用于检索增强生成（RAG）系统的文本分块框架，通过动态选择分块器、正则表达式引导的分块和编辑距离恢复算法，提升RAG系统的性能和效率。它还引入了新的评估指标：边界清晰度和分块粘性，以量化文本分块质量。MoC的实现依托于Meta-Chunking项目，并提供了lmchunker Python包，便于用户安装和使用。

0

RAG系统文本分块框架动态分块器选择文本分块质量评估正则表达式引导分块

funsearch开源 – 基于LLM的高性能程序搜索工具

funsearch 是一个基于大型语言模型（LLM）的高性能程序搜索工具，旨在发现数学算法和解决优化问题。它通过遗传算法的方式工作，LLM 被用于 Python 程序的变异和繁育，特别适合处理数学中的逆问题。funsearch 支持搜索任何类型签名，并集成了 Weights & Biases 进行实时监控。它还通过 OpenRouter 支持多个 LLM，并提供并行处理以提高效率，同时包括代码执行的安全特性。

0

OpenRouter多模型支持Python程序变异Weights & Biases集成基于LLM的程序搜索工具

φ-Decoding开源 – 优化大型语言模型推理的算法

φ-Decoding 是一种专为大型语言模型（LLM）设计的推理优化算法，通过自适应前瞻采样实现探索与利用的平衡。它将解码定义为前瞻采样，模拟未来步骤以估计全局最优步骤，并结合步骤优势和对齐评估，构建步骤值估计函数。通过宽度内和深度内剪枝策略，φ-Decoding 实现了自适应计算分配，显著提高了推理效率。在多个基准测试中，φ-Decoding 在性能和效率方面均优于自回归 CoT、Tree-of-Thoughts 和 MCTS 等基线方法，并展示了在各种 LLM 上的泛化能力。

0

LLM推理加速大型语言模型推理优化开源算法自适应前瞻采样

NdLinear开源 – N维线性变换层，高效处理多维数据

NdLinear是一种创新的N维线性变换层，专门设计用于处理多维数据（如图像、体积医学扫描和多变量时间序列），而无需展平数据，从而保留其结构信息。它沿输入张量的每个维度独立操作，捕获标准线性层忽略的轴特定依赖关系。研究表明，NdLinear在参数效率方面表现出色，使用更少的参数即可实现与标准线性层相当或更优的性能。它可以作为神经网络架构中的替换组件，适用于各种网络类型，如卷积、循环和基于变换器的网络。

0

N维线性变换层参数效率优化多维数据处理神经网络架构

LabelLLM开源 – 优化LLM数据标注的开源平台

LabelLLM 是一个专为大型语言模型（LLM）开发设计的开源数据标注平台，旨在优化数据标注过程，提高标注效率。该平台提供全面的任务管理解决方案，支持多模态数据（如音频、图像、视频），并提供高效标注工具和定制化服务，特别适合独立开发者及中小型研究团队。

0

AI辅助标注多模态数据标注大型语言模型数据标注开源标注平台

HLLM开源 – 增强顺序推荐的分层大语言模型

HLLM（Hierarchical Large Language Models）是由字节跳动提出的分层大语言模型架构，旨在通过分层结构提升推荐系统的性能。它由Item LLM和User LLM组成，分别处理物品特征提取和用户兴趣预测。该方法结合了生成式和判别式训练方式，通过实验证明其有效性，尤其在处理大规模数据集时表现出色。线上AB测试验证了其在真实推荐场景中的实用性。

0

Item LLMUser LLM分层大语言模型字节跳动开源项目

MLoRA开源 – 多领域点击率预测模型

MLoRA（多领域低秩自适应网络）是由阿里巴巴开发的用于提升多领域点击率（CTR）预测的模型。它借鉴了大语言模型（LLM）中的高效参数微调技术，引入了低秩自适应（LoRA）来解决数据稀疏和分布不均的问题。MLoRA为每个领域添加了专门的LoRA模块，使其参数高效且易于与各种CTR预测模型集成。该模型在多个公开数据集和阿里巴巴电商平台的A/B测试中表现出色，展示了其在实际应用中的优越性能和实用性。

0

低秩自适应网络多领域点击率预测模型推荐系统优化阿里巴巴AI工具

LCM-LoRA开源 – 加速文本到图像生成的创新技术

LCM-LoRA 是由清华大学和 Hugging Face 研究人员开发的加速模块，基于潜在一致性模型（LCM）。它通过对稳定扩散模型（Stable Diffusion）进行知识蒸馏，将生成图像的步骤从 25-50 步减少到 4-8 步，速度提升 5-10 倍，实现实时生成效果。LCM-LoRA 利用低秩适应（LoRA）技术分解神经网络，降低内存消耗，支持多种模型如 SD-V1.5、SSD-1B 和 SDXL，无需重新训练即可嵌入。

0

LoRA技术实时图像生成文本到图像生成稳定扩散模型加速

Vary开源 – 文档级OCR与图表理解新方法

Vary是一种新的视觉识别方法，专注于文档级OCR和图表理解。它通过两个阶段生成并整合新的视觉词汇，首先设计词汇网络和小型解码器，通过自回归生成所需词汇，然后通过合并新词汇和原始词汇（CLIP）来扩展原始视觉词汇，使大型视觉语言模型（LVLMs）能够快速获取新特征。Vary在保持原有能力的同时，展现出更出色的细粒度感知和理解能力，尤其擅长识别表格和公式，并具备多模态推理能力。

0

公式识别图表理解多模态推理文档级OCR

InstantID开源 – 零次身份保留的图像生成技术

InstantID 是一种基于扩散模型的图像生成技术，专注于零次身份保留的个性化图像合成。它允许用户仅用一张面部图像生成多种风格的个性化图像，保持高保真度。项目无需额外模型训练或测试时的微调，可与预训练的文本到图像扩散模型无缝集成。核心组件 IdentityNet 结合面部和地标图像与文本提示，指导图像生成。

0

IdentityNet个性化图像合成多风格图像生成扩散模型

Unique3D开源 – 快速生成高质量3D模型

Unique3D 是由清华大学开发的一个创新项目，专注于从单张 RGB 图像快速生成高质量的 3D 网格模型。该技术利用深度神经网络中的 ControlNet 架构，能够在不到 30 秒的时间内生成具有高保真纹理和几何细节的 3D 模型。Unique3D 通过多视角扩散模型和 ISOMER 算法，提供了卓越的几何和纹理细节精度，且已开源。

0

3D模型生成ControlNet架构ISOMER算法多视角扩散模型

DuoGuard开源项目 – 多语言LLM防护框架

DuoGuard是一个基于双玩家强化学习的多语言大语言模型（LLM）防护框架，旨在通过生成对抗性合成数据，解决多语言安全数据稀缺的问题，从而提升多语言LLM防护模型的性能和推理效率。该框架包含一个生成器和一个分类器，它们以对抗方式共同进化，从而提高合成数据质量和防护模型的有效性。DuoGuard在多语言安全任务中显著优于现有最先进的模型，同时保持高效的推理速度。

0

双玩家强化学习多语言LLM防护框架生成对抗性合成数据

Azure AI Content Safety Sample Repo开源项目 – Azure AI内容安全示例

该仓库包含示例代码，展示如何使用Azure AI内容安全服务检测和审核文本和图像中的潜在有害内容。Azure AI内容安全是一项基于云的服务，利用机器学习和计算机视觉技术，帮助为用户和客户创建更安全、更包容的在线环境。仓库分为`dotnet`和`python`两个文件夹，分别包含C#和Python的示例代码，涵盖文本和图像审核以及文本屏蔽列表管理等功能。

0

Azure AI内容安全内容安全API图像审核文本审核

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

0

内存优化后训练量化文生图像模型量化方法

Spirit LM开源项目 – 混合语音与文本的多模式语言模型

Spirit LM是由Meta开源的多模式语言模型，能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型，通过词级交错方法扩展到语音模式，使用子词BPE标记进行文本编码，并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集，利用自动策划的语音-文本平行语料库，同时学习语音和文本特征。模型还使用特殊标记区分文本和语音，并在训练中随机触发模态变化，使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本：基础版和表现力版，分别专注于语音语义单元和表达性语音合成。

0

HifiGAN声码器HuBERT模型多模式语言模型文本编码

AIOpsLab开源项目 – 云自动化运维AI框架

AIOpsLab是一个全面的框架，用于设计、开发和评估自主的AIOps（人工智能运维）代理，支持构建可重复、标准化、互操作和可扩展的基准测试。它能够部署微服务云环境、注入故障、生成工作负载并导出遥测数据，同时协调这些组件并提供接口与代理进行交互和评估。AIOpsLab还内置了一个基准测试套件，包含一系列问题，用于在交互环境中评估AIOps代理。该套件可以轻松扩展以满足用户特定需求。

0

AIOps云自动化运维基准测试开源项目

赤兔Chitu开源项目 – 高性能大模型推理框架

赤兔Chitu是由清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理框架，专注于效率、灵活性和可用性。它支持多种主流大模型，如DeepSeek、LLaMA系列、Mixtral等，并致力于在各类硬件环境（包括传统GPU、非NVIDIA GPU和CPU）上提供高效的推理能力。赤兔Chitu通过底层技术革新，摆脱对特定硬件的依赖，降低了企业部署AI模型的门槛和成本。

0

低延迟优化跨硬件兼容性高性能大模型推理框架

NVIDIA AgentIQ开源项目 – 灵活的企业级AI Agent集成库

NVIDIA AgentIQ 是一个灵活的库，旨在无缝集成企业级AI Agent，支持多种数据源和工具。它将Agent、工具和工作流视为简单的函数调用，实现了真正的可组合性：一次构建，随处重用。AgentIQ 提供了丰富的功能，包括框架无关性、可重用性、快速开发、性能分析、可观测性、评估系统、用户界面以及与MCP的兼容性。通过AgentIQ，开发者可以快速构建、调试和优化AI驱动的项目，确保其可靠性和高效性。

0

AI Agent集成库AI评估系统OpenTelemetry监控企业级AI工具

Babel-LLM开源项目 – 开源多语言大模型

Babel是阿里巴巴开源的多语言大模型，支持25种主流语言，覆盖全球90%以上的人口。它提供了9B和83B两个版本，9B专为高效的多语言大模型推理和微调设计，适合研究和本地部署；而83B性能更好，但消耗的资源也更多。Babel的创新之一是采用了层扩展技术，通过在模型中插入额外的层来增加参数数量从而提升模型的性能。预训练方面，Babel采用了两阶段预训练策略：第一阶段是恢复阶段，目标是恢复模型在扩展过程中可能损失的性能；第二阶段是持续训练阶段，重点提升模型的多语言能力，尤其是低资源语言。Babel在多个主流基准测试中表现出色，尤其是在多语言推理、理解和翻译方面。

0

低资源语言研究多语言大模型多语言翻译开源项目

Manus Guide开源项目 – Manus AI平台的详细指南

这是一个专门为Manus AI平台创建的指南仓库，提供了全面的使用文档，涵盖Manus的基本情况、使用指南、应用场景、与其他AI智能体的对比以及Replay功能的解析。文档支持英文和中文，适合新手使用。

0

AI平台对比Manus AI平台指南Replay功能解析多语言支持

源2.0开源项目 – 新一代基础语言大模型

源2.0是浪潮信息发布的新一代基础语言大模型，开源了102B、51B和2B三个模型版本。该模型在源1.0的基础上，利用更多样的高质量预训练数据和指令微调数据集，增强了在语义、数学、推理、代码、知识等方面的理解能力。提供了预训练、微调、推理服务的相关脚本，支持多种部署方式，包括Hugging Face、TensorRT-LLM、FastChat等框架。

0

API调用多轮对话开源语言模型微调