RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。
RL-VLM-F的特点:
1. 结合视觉和语言的强化学习
2. 利用基础模型反馈进行学习

RL-VLM-F的功能:
1. 用于多模态任务的反馈学习
2. 在复杂场景中优化决策过程

相关导航

PaLI-3-小巧快速的强大视觉语言模型

PaLI-3是一个相对更小、更快且更强大的视觉语言模型，其性能表现优于大小为其10倍的类似模型，专注于多模态任务的高效处理。

多模态数据集官网 – 视觉与语言的预训练语料库

达摩院开源的视觉-语言预训练的语料库，包含从在线教学视频中提取的多模态数据，支持多种学科的学习和研究。

Painful intelligence-探讨痛苦源头，助力智能学习

研究探讨痛苦的源头，认为痛苦是一种错误信号，帮助智能系统（包括人类）从失败中学习并调整行为。

ReSearch开源项目 – 强化学习让LLM学会搜索推理

ReSearch 是一个开源项目，通过强化学习将搜索操作整合到大型语言模型（LLMs）的推理过程中，使其能够通过搜索工具更有效地回答问题。该项目通过强化学习训练LLM，使其在无监督数据的情况下学会何时以及如何调用搜索工具。基于Qwen2.5-7B模型，从零开始训练，展现了强大的泛化能力，并在HotpotQA等数据集上验证，性能显著提升。

SimPO开源项目 – 一种新的序列生成任务处理方法

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

HOVER开源项目 – 为机器人提供灵活的运动控制解决方案

HOVER为机器人运动控制提供高效、灵活的神经网络解决方案，基于强化学习技术，能够实现复杂动作的精准控制，支持多种机器人模型，适配性强，并提供详细的训练和测试流程，易于上手。

Diamond Env开源项目 – Minecraft强化学习标准化环境

Diamond Env是一个为强化学习设计的标准化环境，基于Minecraft中的Diamond任务。它提供了一致的实验条件，支持多种强化学习算法，并允许用户自定义任务和奖励机制。该环境适用于研究Minecraft中的智能体行为，并可作为基准环境进行性能评估。

flowRL官网 – 智能化用户界面个性化平台

flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型，您可以根据用户交互自动调整界面，以最大化您选择的目标指标。

CheXagent-用于胸部X光片解读的基础模型

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

Kolmogorov-Arnold Q-Network (KAQN)开源项目 – 将KAN应用于强化学习的初步实验

Kolmogorov-Arnold Q-Network (KAQN) 是一个将Kolmogorov-Arnold Network (KAN) 应用于强化学习领域的项目，旨在通过结合Q-Network和KAN的原理，探索其在强化学习任务中的有效性。该项目目前处于初步实验阶段，目标是研究和开发新的强化学习算法。

olmOCR官网 – 高效提取PDF结构化内容

olmOCR 是一个端到端的 PDF 文档解析工具，结合视觉语言模型（VLM）和文档锚定技术，能够高效提取 PDF 文档中的结构化内容，如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型，显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架，能够高效处理大规模数据，并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计，能够保持自然阅读顺序，同时处理图形、手写文本和低质量扫描件。

O1-CODER开源项目 – 专注编程任务的模型复现项目

一个专注于编程任务的O1模型复现项目，结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力，包含测试用例生成器(TCG)和自弈强化学习两大核心组件，旨在生成更高效和逻辑性强的代码

R1-Omni开源项目 – 全模态情感识别与推理工具

R1-Omni是首个将强化学习应用于全模态大语言模型的情感识别项目，旨在提升情感识别的推理能力，并在分布外数据上表现卓越。它利用视觉和音频信息来识别情感，通过看视频来识别人的情绪，并生成详细且可解释的推理过程。

SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

LlamaGym开源项目 – 知识增强规划系统

知识增强规划系统，旨在为基于LLM的智能Agent提供支持，通过创建广泛的行动知识库，将特定任务相关的行动规划知识整合起来，并将这些知识转化为文本，使模型能够深入理解和利用这些知识来生成行动轨迹。

localGPT-Vision开源项目 – 通过视觉模型与文档对话

localGPT-Vision是一个通过视觉语言模型与文档进行对话的项目，采用了端到端的检索增强生成（RAG）流程，支持本地和专有的视觉语言模型，旨在提高文档交互的效率和准确性。

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型

LLaMA-VID 是一种开源的多模态大模型，专门设计用于处理长时间的视频内容，如电影。它通过使用视觉语言模型（Vision Language Models, VLMs）来结合计算机视觉和自然语言处理，从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记（Token）来表示每一帧图像或视频：一个上下文标记（Context Token）用于编码整个图像或视频中最相关或最重要的部分，另一个内容标记（Content Token）用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息，并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频，并在多个视频榜单上实现了 SOTA（State of the Art）表现。

暂无评论

暂无评论...