MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
GPT-4V是一个扩展大型语言模型的项目,通过视觉理解等多感官技能,增强其通用智能,支持多模态输入和人机交互,具有强大的应用潜力。
有关大型语言模型(LLM)约束解码的精选论文列表,包含相关代码和资源,旨在实现更可靠、可控和高效的文本生成。
该项目是一个专注于大型语言模型(LLM)终身学习的资源库,收集了相关的精华综述、研究资源和论文,旨在促进LLM的持续学习能力和性能提升。
这篇综述系统性地梳理了强化学习从价值驱动到模型思维的范式转变,探讨了强化学习的未来发展方向以及与大语言模型的结合。