finetune-Qwen2-VL-Qwen2开源项目 – VL的微调工具

Qwen2-VL微调工具：用于微调开源多模态大模型Qwen2-VL，支持单GPU和多GPU训练，提供简易上手的微调脚本和数据，旨在帮助开发者快速进行模型微调或再训练
finetune-Qwen2-VL的特点:
1. 支持单GPU和多GPU训练
2. 提供简易上手的微调脚本
3. 支持数据准备和处理
4. 旨在帮助开发者快速进行模型微调或再训练

finetune-Qwen2-VL的功能:
1. 使用微调脚本进行模型训练
2. 准备数据集以供模型微调
3. 通过配置文件自定义训练参数

相关导航

DEIM开源项目 – 改进DETR匹配机制，加速收敛

DEIM 是一个先进的训练框架，旨在增强 DETR（Detection Transformer）中的匹配机制，从而实现更快的收敛速度和更高的检测精度。该项目为实时目标检测领域的研究和应用提供了坚实的基础，并已在 CVPR 2025 上发表。DEIM 提供了多种预训练模型，包括 DEIM-D-FINE 和 DEIM-RT-DETRv2，适用于不同的计算资源和性能需求。

typical-sampling开源项目 – 为深度学习提供先进的自然语言处理

typical-sampling 是一个为 Jax、PyTorch 和 TensorFlow 打造的先进自然语言处理工具，支持典型采样算法，旨在优化模型训练和推理过程，提供易于集成的 API 以提升开发效率。

無界AI – 人人都是藝術家官网 – AI艺术创作平台

無界AI是一个专注于AIGC（AI生成内容）赛道的平台，致力于开发符合中国审美的绘画大模型，并结合区块链技术进行版权保护。平台提供多种AI模型，包括二次元模型、通用模型和色彩模型，支持多种高级设置，用户可以通过选择不同模型生成艺术作品。

transformers-code开源项目 – 实战学习Huggingface Transformers

手把手带你实战 Huggingface Transformers 课程视频和资料，帮助学习者掌握自然语言处理技术。

讯飞星火大模型官网 – 新一代认知智能大模型

讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型，具备跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。该模型支持多模态能力，涵盖语言理解、知识问答、逻辑推理、数学问题解决、代码理解与编写等多种功能，适用于多种场景。

FasterTransformer开源项目 – 更快的Transformer模型优化工具

FasterTransformer是一个旨在提高Transformer模型速度和效率的工具，支持多种架构如BERT和GPT，提供高性能的推理和训练，且易于集成。它支持FP16和INT8量化技术，能够在NVIDIA GPU上实现高效的模型推理和快速训练，适合在生产环境中部署优化后的模型。

Public Prompts官网 – 高质量开放式图像生成提示集合

Public Prompts是一个由黎巴嫩一位热衷于技术与人工智能的初级医学医生创建的网站，旨在提供由CompVis和Stability AI团队开发的公共工具、知识、模型和提示。该网站支持Stable Diffusion技术，提供各种创意用途的提示、模型和嵌入的集合。用户可以浏览网站，根据可用的提示、模型或嵌入进行选择，探索不同类别，获取所需的创意资源。对于高级用户，网站还提供在本地运行AI和自行训练模型的资源。

InternVL开源项目 – 开源多模态大模型，媲美商业模型

InternVL 是由 OpenGVLab 团队开发的开源多模态大模型，旨在提供接近 GPT-4V 和 Gemini Pro 等商业模型性能的替代方案。它支持多种模态任务，包括图像理解、文本生成、跨模态检索等，并且在多个基准测试中表现出色。InternVL 系列模型参数覆盖从 1B 到 78B，适用于各种规模和复杂度的任务。

gpt-from-scratch开源项目 – 从零实现小型GPT模型

在单个Jupyter Notebook中，实现从零开始训练一个小型GPT风格的解码器语言模型。涵盖了从文本分词、位置编码、自注意力机制到模型训练和推理的完整过程。同时每一步还有详细的讲解。读者可以通过该项目深入理解GPT模型的内部机制、训练流程等。

GPT-4V漫游奇境-多模态大模型助力手机导航

用于零-shot智能手机GUI导航的多模态大模型，成功地利用多模态大模型在智能手机上执行，展示出在理解和执行iOS屏幕指令方面的高准确性。

Text-Similarity开源项目 – 文本相似度计算工具

文本相似度（匹配）计算，提供Baseline、训练、推理、指标分析等功能，支持TensorFlow和Pytorch两个版本，适合不同需求的开发者使用。

nanoGPT-mup开源项目 – 中等大小GPT模型训练和微调的简易工具

专注于训练和微调中等大小 GPT 模型的最简仓库，是 karpathy/nanoGPT 的一个分支，并提供了最大更新参数化（muP）的最小实现，旨在简化用户的使用体验和模型的优化过程。

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型

LLaMA-VID 是一种开源的多模态大模型，专门设计用于处理长时间的视频内容，如电影。它通过使用视觉语言模型（Vision Language Models, VLMs）来结合计算机视觉和自然语言处理，从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记（Token）来表示每一帧图像或视频：一个上下文标记（Context Token）用于编码整个图像或视频中最相关或最重要的部分，另一个内容标记（Content Token）用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息，并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频，并在多个视频榜单上实现了 SOTA（State of the Art）表现。

HeartEcho开源项目 – 一个集成多功能的智能学习平台

HeartEcho 是一个集成了聊天室、语料库和炼丹炉的项目，旨在提供一个全面的环境用于实时交流、文本数据研究和模型训练。它支持大模型的增量学习，具备实时数据处理能力，并且提供用户友好的交互界面及可扩展的模块化设计。

TAID开源 – 高效知识蒸馏方法

TAID（Temporally Adaptive Interpolated Distillation，时间适应插值蒸馏）是一种新型知识蒸馏方法，专为从大型语言模型（LLM）高效转移知识到小型语言模型（SLM）而设计。它通过时间依赖的中间分布动态地在学生和教师分布之间进行插值，解决了由于教师模型和学生模型之间能力差距过大、模式平均和模式崩溃等问题导致的知识转移效率低下问题。研究表明，TAID通过渐进式和自适应的知识转移过程，提升了蒸馏的性能和稳定性，并在指令调整和预训练场景中表现出色。

暂无评论

暂无评论...