Visual-RFT是首个将深度强化学习策略应用于多模态领域的视觉强化微调框架。它通过规则化可验证奖励来提升视觉感知任务的性能,支持多种视觉任务,如细粒度图像分类和开放词汇目标检测。项目完全开源,提供训练代码、数据和评估脚本,帮助研究者快速上手。