该项目是基于CLIP(对比语言-图像预训练)的研究成果汇总平台,旨在整理和分享CLIP相关的研究进展,包括训练方法、改进、数据处理、知识蒸馏、损失函数设计,以及在零样本、少样本和分类任务中的应用。项目提供了全面的论文、代码和应用分类,方便用户快速获取CLIP相关信息。
Visual-RFT是首个将深度强化学习策略应用于多模态领域的视觉强化微调框架。它通过规则化可验证奖励来提升视觉感知任务的性能,支持多种视觉任务,如细粒度图像分类和开放词汇目标检测。项目完全开源,提供训练代码、数据和评估脚本,帮助研究者快速上手。
R1-Onevision是一个基于Qwen-VL架构的视觉模型,具有强大的推理能力,模型大小为7B。它能够处理复杂的视觉推理任务,适用于图像理解和分析,同时支持多模态学习任务。
通过高质量合成数据提升多模态多语言嵌入性能的创新项目,支持多种任务和语言,在MMEB基准测试中达到SOTA性能,致力于推动跨模态学习的进步。
Awesome_Multimodal是一个精心策划的GitHub项目,提供关于多模态大语言模型(MLLM)的全面资源集合。
Lumina-mGPT是一个多模态自回归模型家族,专注于从文本描述生成高质量的图像,能够处理多种视觉和语言任务,具备强大的生成能力和灵活的应用场景。
E.T. Bench旨在实现开放事件级的视频语言理解,结合视频和语言数据,推动多模态学习的进展。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。
一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
斯坦福开发的一种遵循指令的 LLaMA 模型,基于 Meta 的 LLaMA 7B 模型进行微调,性能接近 OpenAI 的 text-davinci-003,支持在单个 GPU 或 CPU 上运行。
吴恩达的课程,旨在引导学员完成LLM预训练流程,包括数据准备、模型架构配置、训练和评估。学员将学习如何使用HuggingFace获取训练数据,配置Transformer网络,运行训练并进行性能评估,同时探讨深度升级技术以降低计算成本。
Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。
Confident AI是一个综合性的LLM评估平台,提供14种以上的指标来运行LLM实验,管理数据集,监控并整合人类反馈,以自动改进LLM应用。它与DeepEval协作,支持任何用例。
这是一个综合性列表,涵盖使用大型语言/多模态模型在机器人和强化学习领域的论文,包含论文、代码及相关网站。