FastVideo开源项目 – 加速视频扩散模型的轻量框架

FastVideo 是一个轻量级框架，专注于加速大型视频扩散模型。它通过一致性蒸馏技术显著提升推理速度，支持多种先进的视频扩散模型（如 Hunyuan 和 Mochi），并提供高效的训练和微调功能。FastVideo 还引入了滑动瓦片注意力（Sliding Tile Attention）技术，进一步优化了视频生成的速度和质量。该项目支持多 GPU 扩展训练，内存高效的微调方法（如 LoRA），并提供了丰富的预训练模型和数据集，方便用户快速上手。

FastVideo的特点:

1. 支持一致性蒸馏技术，提升推理速度 8 倍
2. 引入滑动瓦片注意力（Sliding Tile Attention），优化视频生成效率
3. 支持多种先进的视频扩散模型（如 Hunyuan 和 Mochi）
4. 提供高效的分布式训练（FSDP、序列并行）
5. 内存高效的微调方法（LoRA、预计算潜在空间）
6. 支持多 GPU 扩展训练，近乎线性扩展到 64 GPU
7. 提供丰富的预训练模型和数据集

FastVideo的功能:

1. 使用滑动瓦片注意力加速视频生成
2. 通过一致性蒸馏技术微调视频扩散模型
3. 使用 LoRA 进行内存高效的微调
4. 在多 GPU 环境下进行分布式训练
5. 利用预训练模型进行快速推理
6. 通过脚本进行数据集预处理和模型训练

相关导航

lmms-finetune开源项目 – 多模态大模型微调工具

lmms-finetune 是一个多模态大模型微调工具，提供了一个统一的代码库，简化了微调流程，支持微调多种LLM。它支持完整模型微调和LoRA微调两种方式，并且具有良好的扩展性，能够满足不同场景下的需求。

LLM-zero2hero开源项目 – 高度解耦的大语言模型微调项目

LLM-zero2hero是一个高度解耦的微调项目，旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力，使用户能够灵活地调整模型以满足特定需求。

open-instruct开源项目 – 开源指令微调语言模型

open-instruct 是一个开源项目，专注于指令微调和后训练大型语言模型。它提供了最新的技术和指令数据集，支持直接偏好优化（DPO）和可验证奖励强化学习（RLVR），并在各种基准上评估模型性能。该项目为研究人员和开发者提供了一个平台，用于探索和改进指令微调技术。

x-flux开源项目 – 高效的Flux模型训练脚本

Black Forest Labs的Flux模型训练脚本集，支持LoRA和ControlNet模型的微调，使用DeepSpeed进行高效训练，适用于512x512及1024x1024图片尺寸，提供下载链接和训练配置文件

mlx-lm开源 – Apple硅片高效运行大语言模型的Python工具包

mlx-lm是专为Apple硅片（如M1/M2/M3）优化的Python包，支持在macOS上高效运行和微调大语言模型。它深度集成Hugging Face Hub，提供模型量化、分布式推理、长文本处理等高级功能，特别针对Mac用户优化性能。项目支持Mistral/Llama等主流模型，提供文本生成、交互式聊天、模型转换等核心功能，并可通过LoRA微调适配专业场景。

FastVideo开源项目 – 加速视频扩散模型的轻量框架

Bunny开源项目 – 轻量级多模态通用框架

Bunny是一个轻量级但功能强大的多模态通用框架，兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练，支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器（Vision Encoder）、跨模态投影器（Cross Modality Projector）和大语言模型（Large Language Model）。通过特殊的token `` 来定位图像嵌入的位置，并将图像和文本模态的嵌入维度对齐，从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程，支持高分辨率图像处理，并在多个基准测试中表现出色。

StarCoder 2开源项目 – 多语言代码生成模型

StarCoder 2是一系列先进的代码生成模型，支持超过600种编程语言以及自然语言文本，如维基百科、Arxiv和GitHub问题。这些模型采用了分组查询注意力机制，拥有16384 token的上下文窗口和4096 token的滑动窗口注意力。其中，3B和7B模型经过3万亿token的训练，15B模型则经过4万亿token的训练，使其在代码生成和处理方面表现出色。

Motion Inversion开源项目 – 视频生成中的运动定制方法

一种在视频生成中进行运动定制的新颖方法，解决了在视频生成模型中彻底探索运动表示方面存在的广泛差距。

MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

FramePainter开源项目 – 交互式图像编辑工具

FramePainter 是由哈工大联合华为推出的交互式图像编辑工具，基于视频扩散模型和直观的草图控制技术，允许用户通过绘制、点击或拖动操作来指示编辑意图，实现对图像的精确修改。其核心优势在于高效的训练机制和强大的泛化能力，即使在少量样本的情况下，也能生成高质量的编辑结果。

Chat-嬛嬛开源项目 – 基于《甄嬛传》的个性化AI聊天模型

Chat-嬛嬛是一个基于《甄嬛传》剧本中所有关于甄嬛的台词和语句，通过LoRA微调大模型得到的模仿甄嬛语气的聊天语言模型。该项目旨在通过提供任一小说或剧本，指定人物角色，运行完整流程，让用户打造属于自己的、契合角色人设的个性化AI。

Fashion-VDM官网 – 高质量虚拟试穿技术

Fashion-VDM 是一项由谷歌和华盛顿大学联合开发的虚拟试穿技术，基于视频扩散模型（VDM）生成高质量的虚拟试穿视频。该技术通过先进的扩散模型架构、分离分类器免费指导和渐进式时间训练策略，生成单次64帧、512px分辨率的视频，显著提升了衣物展示的真实感和细节表现力。它能够从给定的服装图像和人物视频生成动态试穿视频，保持人物的身份和动作一致，适用于线上服装零售、虚拟时尚展示和个性化推荐等多种场景。

VLM-R1开源项目 – 视觉语言领域的R1方法迁移

VLM-R1是一个开源项目，成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域。该项目基于Qwen2.5-VL，对比了R1和传统的SFT方法，展示了其在多模态图像识别领域的突破性进展。VLM-R1在各种复杂场景下保持稳定的高性能，并展示了卓越的泛化能力，能够适应多种场景和任务而无需专门训练。项目在GitHub上线后迅速获得广泛关注，并登上平台热门趋势榜。

Vision Parse开源项目 – 智能PDF转Markdown工具

将PDF文档转换为Markdown的智能工具，利用先进的视觉语言模型，能够精准识别并提取文本、表格和公式，保留文档格式和层次结构

暂无评论

暂无评论...