R1-V是一个开源视觉语言模型(VLM)项目,旨在通过强化学习和可验证奖励(RLVR)在极低成本(不到3美元)和短时间内(30分钟)实现超强泛化能力。该项目通过高效的训练方法和开源资源,显著提升了模型的性能,特别是在超出分布(OOD)测试中,2B模型在100个训练步骤后超越了72B模型的表现。