Video-R1开源项目 – 视频理解领域的多模态大模型

Video-R1是一个为视频理解任务带来超强推理能力的多模态大模型。它首次在视频理解领域实现了准确率和推理长度的双重提升，使用7B参数模型，训练900步仅需10小时。通过强推理数据集的助力，Video-R1能够涌现出深度思考能力，为视频理解任务提供了强大的支持。

Video-R1的特点:

1. 首次在视频理解领域实现准确率和推理长度的双重提升
2. 使用7B参数模型，训练900步仅需10小时
3. 强推理数据集助力深度思考能力的涌现

Video-R1的功能:

1. 视频理解任务中的推理能力提升
2. 多模态大模型的训练与优化
3. 深度思考能力的培养与增强

相关导航

finetune-Qwen2-VL-Qwen2开源项目 – VL的微调工具

Qwen2-VL微调工具：用于微调开源多模态大模型Qwen2-VL，支持单GPU和多GPU训练，提供简易上手的微调脚本和数据，旨在帮助开发者快速进行模型微调或再训练

Unified Video Action Model开源项目 – 统一视频与动作建模

Unified Video Action Model 是一个专注于视频与动作建模的项目，旨在帮助机器人理解视频内容并预测后续动作。通过两阶段的训练方法，先进行视频生成，再进行动作预测，从而实现更优的效果。该项目支持多种模拟与真实机器人任务，涵盖了PushT、Libero10等数据集，并提供了Colab笔记本，方便用户快速上手体验。

VILA开源项目 – 高效多模态视觉语言模型

VILA 是一个开源视觉语言模型 (VLM) 系列，旨在优化效率和准确性，适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法，支持多图像处理，并具有强大的上下文学习能力，能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色，广泛应用于研究和工业领域。

跨模态因果干预实现鲁棒可信的事件级问答推理-创新性因果驱动的事件级问答推理

首次在事件级问答推理任务中探索了的可能性，在（Structural Causal Model, SCM）的视角下，创新性地引入了因果干预机制，以增强事件级问答推理模型的鲁棒性和可信性。

InternVL开源项目 – 开源多模态大模型，媲美商业模型

InternVL 是由 OpenGVLab 团队开发的开源多模态大模型，旨在提供接近 GPT-4V 和 Gemini Pro 等商业模型性能的替代方案。它支持多种模态任务，包括图像理解、文本生成、跨模态检索等，并且在多个基准测试中表现出色。InternVL 系列模型参数覆盖从 1B 到 78B，适用于各种规模和复杂度的任务。

MME-CoT开源项目 – 多模态大模型推理能力评估基准

MME-CoT是一个为多模态大模型提供全面推理能力评估的基准测试工具。它覆盖了数学、科学、OCR等六大领域，通过提出三项新指标，深度剖析模型的推理质量、鲁棒性和效率，揭示模型在视觉推理任务中的表现，从而助力多模态模型的发展。

OpenManus开源项目 – 快速复刻Manus的开源项目

OpenManus是一个开源项目，旨在让开发者能够轻松访问、修改和扩展Manus的功能。它无需邀请码，打破AI封闭生态，提供快速上手的体验。项目集成了多种成熟技术，包括大型语言模型（LLM）、AI Agent、计算机/浏览器使用、图像/视频理解、爬虫等，通过产品思维和工程集成，提供高效、智能的解决方案。

Awesome-RL-based-LLM-Reasoning开源项目 – 强化学习提升大模型推理能力

这是一个专注于通过强化学习（RL）提升大语言模型（LLM）推理能力的资源库。它旨在帮助研究人员和开发者快速掌握RL与LLM结合的最新进展，并提供解决如何通过RL提升LLM推理能力的实用资源。资源库汇集了最新的相关论文、幻灯片和开源项目，涵盖多种RL方法和LLM推理优化技巧，同时提供丰富的学习资源和实践案例，助力学习者和实践者深入理解并应用RL与LLM的结合。

Qwen Chat官网 – 多功能对话AI平台

Qwen Chat 是由 Alibaba Cloud 开发的对话 AI 平台，可能是“通义千问”的海外版本，使用 QwQ-32B 模型。它提供全面的 AI 功能，包括聊天机器人、图像和视频理解、图像生成、文档处理、网络搜索集成和工具利用等，旨在满足用户在对话、内容生成和数据处理等多方面的需求。

rStar-Math-深度思考的数学求解系统

rStar-Math 系统采用了蒙特卡洛树搜索（MCTS）的方法，结合了基于 SLM 的数学策略模型和过程奖励模型（PPM），旨在提升数学问题的求解能力和深度思考能力。

SlowFast-LLaVA开源项目 – 免训练视频理解多模态模型

SlowFast-LLaVA是苹果开源的一个用于视频理解和推理的免训练多模态大型语言模型。该模型无需任何数据微调即可直接应用于视频理解任务，并且在多种视频问答任务和基准测试中表现优秀，可媲美或优于最先进的视频LLMs。它适用于多种多模态任务，如视频问答、视频生成、视频分类等，是视频理解和推理任务的强基线模型。