Janus是一个多模态理解和生成一体的模型,能够同时理解图片内容并生成新图像。它通过解耦设计来满足理解和生成任务对视觉编码器的不同需求,采用统一的自回归变换器架构处理各种模态的输入。
Human or AI? 是一款社交游戏,旨在挑战玩家通过图像判断其是真实照片还是AI生成的。通过参与游戏,玩家可以测试自己的AI检测能力,同时该项目也适用于学术和研究目的。
SegViT是一个基于纯视觉变换器的语义分割项目,旨在提高图像分割任务的效率和性能。它能够处理多种图像分割任务,适应不同的应用场景,为研究人员和开发者提供了强大的工具。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型,结合了图像和文本输入,能够生成准确的文本和边界框输出,增强了图像描述、问答、定位和文本-图像理解等任务的能力。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
这个项目收集了很多使用OpenAI Vision API来对图像、视频文件和网络摄像头流进行推理的示例。项目结合了多种技术,实现了高效的图像处理和准确标注,适合开发者和研究人员进行实验和学习。
traiNNer是一个基于PyTorch的深度学习框架,旨在实现图像和视频的超分辨率、恢复以及图像到图像的翻译。它提供了灵活的模型结构,支持多种功能,适用于不同的图像处理需求。
Undress AI v2 是一款基于人工智能的应用,用户只需上传一张照片,即可自动处理结果,展示未穿衣物的效果。该项目结合了先进的计算机视觉技术,旨在为用户提供隐私保护的同时,探索图像处理的可能性。
LISA是一个将语言大模型(LLM)与其他视觉模型(如SAM)结合的分割助手,旨在根据复杂和隐含的查询文本输出分割掩码。
VGGSfM是基于运动的视觉几何深层结构,旨在从输入图像中提取2D轨迹,通过图像和轨迹特征重建摄像机,初始化点云并应用捆绑调整层进行重建细化。
MetaGPT 是一个多智能体框架,能够扮演不同的角色,如工程师、产品经理、架构师和项目经理。它通过自动优化提示词、生成产品需求文档、设计文档、任务分配与管理、代码仓库生成等功能,协助用户完成复杂的任务。MetaGPT 还支持多角色协作,自动生成软件开发流程和标准操作程序(SOP),适用于各种项目管理和开发需求。
多模态持续学习资源库:汇集多模态持续学习方法的资源库,提供最新的研究进展和相关论文,助力人工智能领域的学习与发展
2025 年 IEEE GRSS 数据融合大赛 Track 1:全天候地表覆盖映射挑战的基线模型,旨在利用多模态高分辨率 SAR 和光学遥感数据进行地表覆盖分类,并提供了 OpenEarthMap-SAR 数据集和基于 UNet 架构的基线实现。