AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
ChatGPT 在文本注释任务上的表现优于 Mechanical Turk 工人,推动了基于 AI 的数据注释的进展,这些注释可用于训练 AI 模型。
Inflection-2.5接近于GPT-4的性能,但训练所用计算资源仅为其40%。它结合了强大的能力和Inflection独特的个性化以及同理心的微调。
InstantID是一种图像个性化生成方法,通过设计一种新的人脸编码器,结合人脸图像、关键点图像和文本提示来保留细节,并使用扩散生成过程生成高保真度的个性化图像。
文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
Glyph-ByT5是一个定制的文本编码器,旨在实现准确的多语言视觉文本渲染,特别是在平面设计图像中。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
AI Badge是一个允许用户在使用AI生成图像时,使用一个自由授权、易于识别的徽章,以增强使用透明度的工具。用户可以自由地使用这个徽章,建议将徽章宽度至少为图像的5%,并且最低为50px,徽章应放置在图像的右下角,离边缘的距离为徽章宽度的1/4。
质衡: 通用基础模型在底层视觉上的基准测试,包含中文版【底层视觉问答】和【底层视觉描述】数据集,以及中文提示下的图片质量评价。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。