Bunny开源项目 – 轻量级多模态通用框架

Bunny是一个轻量级但功能强大的多模态通用框架，兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练，支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器（Vision Encoder）、跨模态投影器（Cross Modality Projector）和大语言模型（Large Language Model）。通过特殊的token `` 来定位图像嵌入的位置，并将图像和文本模态的嵌入维度对齐，从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程，支持高分辨率图像处理，并在多个基准测试中表现出色。

Bunny的特点:

1. 兼容多种大语言模型和视觉模型
2. 支持高分辨率图像处理（最高1152×1152）
3. 提供多种预训练模型和训练教程
4. 在多个基准测试中表现优异
5. 支持LoRA微调和全参数微调

Bunny的功能:

1. 使用HuggingFace Transformers进行模型推理
2. 使用ModelScope进行模型推理
3. 通过Gradio Web UI进行交互式模型推理
4. 通过CLI进行命令行模型推理
5. 进行模型的预训练和视觉指令微调

相关导航

simplicial-embeddings开源项目 – 自监督视觉表示学习库

simplicial-embeddings 是一个基于 Pytorch Lightning 的自监督学习库，专注于视觉表示学习。它提供了多种自监督学习方法，并集成了 Pytorch Lightning 的易扩展性和集成性。该库还包含预训练模型，便于快速部署和应用。

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

该课程提供了基于Transformer架构的音频处理技术，包含丰富的音频数据集和预训练模型，支持多种音频任务如分类、生成和转录，并结合实用示例和代码演示，帮助学习者掌握音频处理的最新技术。

EasyNLP开源项目 – 一个全面易用的NLP工具包

EasyNLP是一个功能全面且易于使用的自然语言处理工具包，支持多种NLP任务，提供丰富的预训练模型，并能与多种深度学习框架无缝集成。它拥有良好的文档和社区支持，旨在简化用户的NLP开发流程。

Rembg开源项目 – 高效去除图片背景的工具

Rembg 是一款开源工具，专注于快速且精确地从图片中移除背景。它支持多种输入输出格式，可以作为命令行工具、库或Docker容器使用。Rembg 提供了多种预训练模型，适用于不同的使用场景，如人像分割、动漫角色分割等。它还支持GPU加速，适用于大规模图像处理任务。

MinT开源项目 – 从头实现的最小化Transformer库

MinT 是一个轻量级、可扩展的Transformer库，专为自然语言处理任务而设计，提供易于使用的API，支持多种预训练模型，能够高效地进行模型训练和推理。

EasyAnimate开源项目 – 高清长视频生成解决方案

EasyAnimate是阿里云人工智能平台PAI自主研发的基于DiT的视频生成框架，提供了从视频数据预处理、VAE训练、DiT训练、模型推理到模型评测的完整高清长视频生成解决方案。支持多种分辨率和帧率的视频生成，适用于文本到视频、图像到视频、视频到视频等多种生成任务。

Chat-嬛嬛开源项目 – 基于《甄嬛传》的个性化AI聊天模型

Chat-嬛嬛是一个基于《甄嬛传》剧本中所有关于甄嬛的台词和语句，通过LoRA微调大模型得到的模仿甄嬛语气的聊天语言模型。该项目旨在通过提供任一小说或剧本，指定人物角色，运行完整流程，让用户打造属于自己的、契合角色人设的个性化AI。

DiffBIR开源项目 – 基于扩散模型的盲影像复原

DiffBIR是一个基于扩散模型实现盲影像复原的项目，支持多种类型的图像，包括动漫、人物、风景和物品等，旨在有效处理盲图像问题，适用于多种应用场景。

TecoGAN开源项目 – 视频超分辨率的时序一致性GAN

TecoGAN是一个用于视频超分辨率的生成对抗网络（GAN），专注于生成具有时序一致性的高分辨率视频。该项目由慕尼黑工业大学的研究团队开发，旨在通过自监督学习提升视频生成中的时间连贯性。项目提供了推理、训练和下载训练数据的代码，并包含预训练模型。TecoGAN的生成能力在细节持久性和时空一致性方面表现出色，能够生成长时间保持细节的视频序列。

Awesome-Audio-LLM开源项目 – 音频处理与生成的资源集合

音频领域的大型语言模型集合，专注于音频处理、理解和生成，为音频语言模型提供丰富的资源和工具

LayerTracer开源项目 – 高效SVG设计工具

LayerTracer是一款认知对齐的分层SVG合成工具，通过扩散Transformer技术实现高效设计。它支持文本到序列和图像到序列的生成，提供多种预训练模型，涵盖4格和9格图标生成，并配备简单易用的命令行工具，能够快速将设计转化为SVG格式。

AntiFraudChatBot开源项目 – 基于AI的微信防诈骗聊天机器人

AntiFraudChatBot是一个基于wechaty框架和微调NLP模型的简单聊天AI，旨在提供防诈骗智能响应。它通过预训练的大模型进行自然语言处理，支持中文，并能够与用户通过微信进行互动，提供有效的防诈骗建议。

Kansformers开源项目 – 基于KAN的高效Transformer模型

Kansformers是一个基于知识增强网络（KANs）的Transformer架构，旨在提高自然语言处理任务的性能。它提供多种预训练模型，支持针对特定任务的微调，并具备高效的模型推理能力和灵活的API设计，适合多种应用场景。

LLaVA-LLaMA-3-基于Llama-3开源项目 – 8b的大型语言模型

LLaVA-LLaMA-3是基于Llama-3-8b大型语言模型(LLM)的LLaVA-v1.5复现项目，旨在提供预训练模型及相关的训练和演示脚本，方便研究人员和开发者进行自然语言处理任务的探索与应用。

FocoosAI/focoos开源项目 – 高效的计算机视觉开发平台

Focoos AI 提供的高效、可定制的计算机视觉开发平台，包括一个强大的 SDK，用于帮助开发者和企业快速选择、定制、测试和部署适合各种数据、应用和硬件的先进模型。

暂无评论

暂无评论...