一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
为视觉-语言模型(例如CLIP)提供精心策划的Prompt/Adapter学习方法列表,包含最新的研究进展和代码实现,促进模型的高效学习和应用
RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
AGVM是一个用于密集视觉预测的大批量优化项目,旨在提高深度学习模型在视觉任务中的训练和优化效率。
一个包含大约4675本中文科幻小说的语料库,可以用于中文科幻小说的人工智能研究。
SegModel是一个基于Caffe的轻量级深度学习库,专注于语义分割任务,具有高效的架构,支持结构化补丁预测,并结合了上下文条件随机场(CRF)和引导CRF技术,方便与现有Caffe项目集成。