DPT(Dense Prediction Transformer)是一个基于视觉Transformer的密集预测模型,主要用于单目深度估计和语义分割任务。该项目由Intel开发,但目前已停止维护。它提供了多种预训练模型,可以用于生成图像的深度图或进行语义分割。项目依赖于PyTorch框架,并提供了详细的代码和模型权重供用户使用。
Timm是一个开源的计算机视觉库,专注于提供高效且易用的深度学习模型,涵盖了图像分类、目标检测、语义分割等任务,支持多种预训练的模型,广泛应用于各类视觉任务。
该系统通过声音输入生成跨模态的3D面部模型,支持多种语音输入。
CoreNet 是苹果公司开发的开源深度神经网络工具包,支持训练多种标准和新颖的小型和大型模型。它适用于对象分类、对象检测和语义分割等多种任务,允许研究人员和工程师使用基础模型(如 CLIP 和 LLM)进行高效的深度学习研究。
FeatUp 是一个与任务和模型无关的框架,用于恢复深层特征中丢失的空间信息,能够将任何模型特征的空间分辨率提高16-32倍,而无需改变其语义。
SegViT是一个基于纯视觉变换器的语义分割项目,旨在提高图像分割任务的效率和性能。它能够处理多种图像分割任务,适应不同的应用场景,为研究人员和开发者提供了强大的工具。
SegModel是一个基于Caffe的轻量级深度学习库,专注于语义分割任务,具有高效的架构,支持结构化补丁预测,并结合了上下文条件随机场(CRF)和引导CRF技术,方便与现有Caffe项目集成。
GroupMixFormer是一种高效神经网络架构,基于Group-Mix Attention机制,旨在显著提升各种视觉任务的性能,特别是在图像分类、目标检测和语义分割等领域。
BasicAI Cloud是一个提供AI驱动的训练数据解决方案的平台,专注于数据标注服务,连接AI工程师与标注专家,提升AI和机器学习模型的准确性。该平台拥有超过7年的经验,提供自动标注、对象跟踪和可扩展标签管理等功能。
GIMP的OpenVINO™ AI插件,功能包括超分辨率、风格迁移、修补、语义分割和Stable-Diffusion等,帮助用户提升图像处理能力,创造出更具艺术感的作品。
GFPGAN是腾讯开源的AI模型,旨在恢复老照片。用户可以通过上传老照片到测试地址,并使用GFPGAN进行图像修复和恢复。
SemanticStyleGAN是一个用于可控图像合成和编辑的生成模型,它学习组合生成先验,从而实现对图像风格的精确控制。
Stable Diffusion Conceptualizer集合了众多非常好用的SD Text Inversion插件,这些插件可用于SD生成不同风格的图片。它提供用户友好的界面,支持多种风格的图像生成,并且能够输出高质量的图像,非常适合艺术创作和设计项目使用。
Stablecog是一个基于Stable Diffusion的免费开源工具,旨在让用户轻松创建高质量图像,激发创意并实现想象力。
NeuralPix是一款免费的应用程序,集成了多种流行的AI照片增强功能,用户可以通过拍照、导入已有照片或扫描旧照片来进行图像处理。
PicTush是一个基于AI的图像处理工具,提供图像放大、上色和转化等功能,利用尖端的人工智能技术彻底改变视觉效果。
一种通过注意力重排列实现零样式迁移的方法,无需针对每种样式的训练数据。
Real-ESRGAN是一个开源的AI项目,其主要功能是实用的图像/视频修复算法。