满血o1是OpenAI于2024年12月发布的o1模型正式版本,相比预览版在推理能力、处理速度和多模态支持上有显著提升。 该模型专为处理复杂问题设计,支持文本和视觉输入,在数学竞赛、编程挑战和科学问题解决中表现优异。 通过ChatGPT订阅或开发者API提供服务,Pro版月费约1450元人民币,国内用户需通过虚拟卡支付。
Skywork-R1V 是一个先进的AI模型,通过38B参数实现文本与视觉推理能力的融合。它采用轻量级视觉适配器和三阶段训练方法,支持复杂数学问题解决和医学影像分析等场景。该模型在多个基准测试中表现出色,如MATH-500和MathVista,性能可能与闭源大型模型相当。
VisualThinker-R1-Zero是一个探索2B模型多模态“顿悟时刻”的项目,首次在2B非SFT模型上实现视觉推理的“顿悟时刻”。该项目显著增加了模型响应长度,大幅提升了推理能力,并观察到模型的自我反思行为,能够自动纠正错误。
LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
为了提高LLM的演绎推理能力并确保推理过程的可信度,我们提出了一种基于自然语言的循序渐进的推理验证过程,并使用自然程序格式。
Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
ArcNerf是一个由多种尖端NeRF技术构成的框架,具备新视角渲染和对象提取等实用功能,支持高效模型训练和灵活架构设计。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。