Expert-Specialized Fine-Tuning (ESFT) – 高效微调混合专家模型

Expert-Specialized Fine-Tuning (ESFT) 是一种针对具有混合专家（MoE）架构的大型语言模型（LLMs）的参数高效微调（PEFT）方法。该方法通过微调与下游任务最相关的专家，显著提高了微调效率和性能。ESFT 不仅能够匹配甚至超越全参数微调的效果，还深入分析了MoE架构对专家专门化微调的影响，使得更细粒度的专家选择成为可能，从而在相关专家组合的选择上更具优势。

功能:

1. 专注于混合专家架构的微调方法
2. 提高微调效率，性能匹配甚至超越全参数微调
3. 分析MoE架构对专家专门化微调的影响
4. 更细粒度专家的MoE模型在选择相关专家组合方面更具优势

特点:

1. 用于资源受限情况下定制大型语言模型
2. 适用于需要高效微调的下游任务
3. 应用于具有混合专家架构的模型微调
4. 用于提高训练效率和效果

相关导航

HiDream-I1开源项目 – 开源高质量图像生成模型

HiDream-I1是HiDream.ai团队推出的开源图像生成基础模型，拥有17亿参数，采用MIT许可证。该模型在多项基准测试中（DPG-Bench/GenEval/HPSv2.1）超越SDXL、DALL-E 3等主流模型，支持秒级高质量图像生成。提供完整版、蒸馏版和极速版三种变体，适用于不同场景需求。技术层面融合扩散模型与混合专家架构（MoE），集成多模态文本编码器，在语义理解、细节渲染和风格多样性方面表现突出。

Turbo-Alignment开源项目 – 大型语言模型微调与对齐库

专门用于大型语言模型微调和对齐的库，它提供了一系列高效和可扩展的技术，以及广泛的支持方法和指标，旨在简化模型的训练和部署过程

LoRA 家族官网 – 高效微调大型语言模型的技术

LoRA（低秩适应）及其家族变体是一系列用于高效微调大型语言模型的技术。通过在预训练权重矩阵旁边添加两个较小的可训练矩阵，LoRA 显著减少了需要训练的参数数量，同时保持了模型性能。LoRA 家族包括多个变体，如 VeRA、LoRA-FA、AdaLoRA、DoRA 和 Delta-LoRA，这些变体进一步优化了内存使用、参数分配和学习能力，广泛应用于自然语言处理和视觉语言任务。

Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models – 基础模型参数高效微调资源库

一个全面且高效的参数高效微调（PEFT）方法汇总库，专注于解决在有限资源下高效微调大模型的问题。该项目汇总了超过100篇相关论文，涵盖语言、视觉、多模态等多种模型，并提供了丰富的代码链接，方便研究人员和开发者快速上手。其核心价值在于提升微调效率和效果，为大模型的高效微调提供一站式解决方案。

mlx-examples开源项目 – 在Mac上运行语言模型的示例项目

这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型，支持在Apple M2 Ultra上进行高效的模型训练和推理，提供简化的模型权重下载和加载流程，同时兼容Python环境。

Foundations of LLMs开源项目 – 大语言模型系统教材

本书是由浙江大学开源的大语言模型教材，系统介绍大模型相关基础知识和前沿技术。涵盖传统语言模型、大语言模型架构演化、Prompt工程、参数高效微调、模型编辑、检索增强生成等六大主题。每章配有相关论文列表，定期更新以跟踪最新技术进展。

Hands-On-LLM-Fine-Tuning开源项目 – 大语言模型微调教程

一站式大语言模型微调教程，旨在帮助用户轻松上手LLM微调。项目提供多种微调技术，包括全参数微调和参数高效微调等，通过详细教程和丰富的实战案例，助力小白快速入门，并覆盖金融、推理等多个领域。

OpenAI的偏好微调官网 – 通过成对样本优化模型输出的微调技术

OpenAI推出的偏好微调技术，采用直接偏好优化（DPO）方法，通过成对样本比较学习使大型语言模型与用户偏好对齐。开发者需准备包含优选和非优选输出的JSONL格式数据集，训练模型区分响应质量并适应特定场景需求，适用于对回答格式、语气或抽象特质（如友好度、创造力）有高要求的应用场景。

GLaM官网 – 谷歌高效稀疏大语言模型

GLaM（通用语言模型）是由谷歌开发的稀疏激活大型语言模型，采用混合专家架构（MoE），总参数达1.2万亿但每次推理仅激活970亿参数。在29个NLP基准测试中超越GPT-3，尤其擅长零样本/单样本学习，训练能耗仅为GPT-3的1/3。其1.6万亿标记的训练数据来自网页、书籍和维基百科，使用TPUv4进行高效训练，但存在17个测试集数据污染事件可能影响可靠性。

Group Relative Policy Optimization (GRPO)开源 – 高效强化学习策略优化算法

GRPO是一种深度强化学习策略优化算法，通过分组采样和奖励归一化提升策略学习的稳定性和效率。它采用截断概率比防止策略更新过于激进，保护已学习的良好行为。该算法在经典强化学习任务（如CartPole）和大型语言模型（LLMs）的推理能力提升中表现优异。GRPO最初由DeepSeek团队提出，特别适用于数学推理任务，在MATH基准测试中达到60%的准确率。其设计兼顾了训练效率和资源利用率，尤其适合大规模模型训练。

Hands-On-LLM-Fine-Tuning官网 – 大型语言模型微调实践指南

这是一个针对大型语言模型（LLM）微调的综合性实践教程，旨在帮助用户快速掌握LLM微调技术。项目覆盖了从基础到进阶的多种微调方法，包括全参数微调和参数高效微调（如LoRA），并提供了丰富的实践案例，涵盖金融、推理等多个领域。教程设计注重初学者友好性，通过详细的步骤指导和实际案例演示，帮助用户快速上手并应用于实际场景。

Kolo开源 – 本地LLM微调轻量工具

Kolo是一个专注于本地微调和测试大型语言模型（LLMs）的开源工具，提供高效、安全的一站式解决方案。它通过容器化技术简化安装流程，支持主流框架如Unsloth和Torchtune，并整合Llama.cpp、Ollama等工具链，适合隐私敏感场景下的模型定制开发。

Qwen2.5-Max开源项目 – 大型AI模型，表现强劲

Qwen2.5-Max是一个采用混合专家（MoE）架构的大规模AI模型。经过广泛的预训练和微调，它在Arena Hard、LiveBench和GPQA-Diamond等基准测试中表现出色，能够与DeepSeek V3等模型进行竞争。

Mixtral-8x7B-Instruct-v0.1模型 – 高性能指令跟随模型

Mixtral-8x7B-Instruct-v0.1 是由 Mistral AI 开发的开源指令跟随模型，基于 Mixtral-8x7B-v0.1 架构，采用混合专家（MoE）设计，包含 8 个 7B 参数的专家，总参数量约为 46.7B。该模型支持 32k 令牌的上下文长度，能够处理英语、法语、意大利语、德语和西班牙语。在 MT-Bench 基准测试中得分 8.3，表现出色，特别适合需要指令跟随的应用场景。模型通过 Hugging Face transformers 库加载，支持 GPU 加速，生成文本的能力强大且灵活。

RAG-Reward模型 – 优化RAG系统的RLHF框架

RAG-Reward是一个结合数据集和奖励模型的框架，旨在通过强化学习与人类反馈（RLHF）优化检索增强生成（RAG）系统。其核心包含35K偏好注释的数据集和基于此训练的奖励模型，用于提升大型语言模型（LLM）在问答、数据到文本和摘要等RAG任务中的性能。项目通过定义四个关键指标评估生成质量，并开发自动化基准测试管道，实验证明其奖励模型在保留测试集上达到最先进性能。

暂无评论

暂无评论...