Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
Densely Captioned Images (DCI) 数据集旨在为图像提供详细的描述,以捕捉视觉细节,适用于计算机视觉领域的多种任务。
质衡: 通用基础模型在底层视觉上的基准测试,包含中文版【底层视觉问答】和【底层视觉描述】数据集,以及中文提示下的图片质量评价。
收集和梳理垂直领域的开源大语言模型、数据集及评测基准,为用户提供全面的资源和支持,便于在各个专业领域内应用和研究。
Diffusion AI 是一款基于人工智能的Windows软件,通过简单的文本输入将创意转化为惊艳的视觉图像,帮助用户释放创造力,生成高质量的视觉效果。
HRS-Bench 是一个全面、可靠且可扩展的基准,专为评估文本到图像模型而设计。它提供了多种性能指标,确保在不同模型规模下的可扩展性和可靠性。
Ask Vandelay 是一个先进的 AI 建筑图像生成器,能够将简单的文字提示转化为惊艳的高质量建筑图像。它为建筑师、房地产开发商和设计师节省时间,提升创意。
Vecentor是一个突破性的生成AI平台,帮助用户根据文本提示创建SVG图像及其相应的代码。用户输入提示后,AI模型将为其生成可重复使用和可编辑的SVG图像。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
Anime2SD是一个自动化的动漫截图管道,旨在帮助用户构建用于文本到图像模型训练的数据集,具有高效性和灵活性。它能够从动漫及其他来源自动生成和处理截图,极大地简化了数据准备的过程。
北京大学的多模态图像视频识别项目,旨在将视觉信息融入语言特征空间,以推动大型视觉-语言模型的发展。
一个专注于视觉自回归建模的资源汇总,展示如何让GPT风格的自回归模型在图像生成上超越扩散transformer,适合研究和开发图像生成模型的人员使用。
MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答(VQA)数据集,基于MIMIC-CXR数据库,旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案,适用于模型的训练和评估,支持多种视觉问答任务。
Glue Factory是CVG开发的一个库,用于训练和评估深度神经网络,专注于提取和匹配局部视觉特征。
用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程