PatchDCT开源项目 – 高质量实例分割的补丁细化

PatchDCT是用于高质量实例分割的补丁细化技术，旨在提高图像分割的精度和效果。该项目利用补丁细化方法，增强了实例分割的性能，适用于多种图像处理任务。
PatchDCT的特点:
1. 高质量实例分割
2. 补丁细化技术

PatchDCT的功能:
1. 用于图像分割任务
2. 提升分割精度

相关导航

Teammate Lang官网 – 全方位的LLM应用解决方案

Teammate Lang是针对LLM应用开发与运营的全能解决方案，通过无代码应用构建器、提示管理器、内置多模态AI及A/B测试与分析等功能，提高LLM应用的价值交付、可靠性和投资回报率。

Imagica官网 – 无代码AI应用开发工具

Imagica是一个创新工具，旨在简化与计算机的交互，尤其是在人工智能领域。用户可以在几分钟内构建无代码的AI应用程序，使得节省时间、降低成本和提高效率成为可能，无需深入编程知识。

FeatUp官网 – 恢复深层特征的空间信息

FeatUp 是一个与任务和模型无关的框架，用于恢复深层特征中丢失的空间信息，能够将任何模型特征的空间分辨率提高16-32倍，而无需改变其语义。

Runhorse AI官网 – AI肖像生成器

Runhorse AI 是一款先进的AI肖像生成应用，能够在几秒钟内从用户上传的照片中生成专业级图像。它通过分析照片来生成独特的风格和特征，使用户能够轻松地转换他们的图像。

ByteFormer-直接在文件字节上进行训练和测试的模型

一个能够直接在文件字节上进行训练和测试的模型，无需在推理时对文件进行解码。

FilmRemoval开源项目 – 基于偏振先验去除透明薄膜皱纹

FilmRemoval项目旨在利用偏振先验技术，有效去除透明薄膜上的皱纹，从而改善图像质量。该方法通过学习与薄膜的光学特性相关的模式，能够在图像处理和摄影中实现显著的视觉清晰度提升。

impel.ai官网 – 汽车软件解决方案的领先者

Impel.ai 提供行业内最先进的汽车软件解决方案，帮助消费者更好地选择和购买车辆。用户可以通过注册账户访问 Impel 平台，探索多种功能和工具。

Mimiko官网 – 在线照片编辑与修复平台

Mimiko是一个在线平台，提供照片编辑和修复服务。用户可以对老照片进行放大和修复，基于输入进行图像处理，模拟老化效果，去除背景，并使旧照片焕发新生。使用Mimiko非常简单，只需创建账户，上传所需照片，选择编辑选项，让Mimiko为您工作。

aidea-server开源项目 – AI大模型聊天与绘画集成平台

aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品，支持全平台（web/h5/pc/Android/iOS），包含会员账户系统和支付系统，完成度非常高。前后端项目完全开源，用户可自行部署，开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等，以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外，还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。

Interior Design API官网 – 为应用提供室内外设计能力

Interior Design API 是一个可以为您的应用程序或网站添加室内和外部设计能力的API。它结合了先进的AI技术，满足各类房地产需求，提供多种设计和图像处理功能。

sd-webui-depth-lib开源项目 – 深度图生成库

这是一个用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图生成库，提供了优化的性能和用户友好的接口。

Gauss2官网 – 三星第二代多模态生成AI

Gauss2是三星在2024年韩国开发者大会(SDC24 Korea)发布的第二代多模态生成性AI模型，支持语言、代码和图像处理。提供Compact(紧凑型)、Balanced(平衡型)、Supreme(至尊型)三种版本，分别适用于设备端、通用场景和云端高性能需求。支持9-14种自然语言和多种编程语言，处理速度比主流开源模型快1.5-3倍。目前主要用于三星内部生产力工具，未来计划集成到消费产品中。

Image Pig官网 – 简单的AI图像生成与处理API

Image Pig是一个简单的API，允许用户通过多种编程语言使用AI模型生成和处理图像。用户可以安装该软件包，并通过发送带有图像提示的POST请求来使用API。

PaddleMIX开源项目 – 跨模态大模型开发套件

PaddleMIX是基于飞桨的跨模态大模型开发套件，支持图像、文本、视频等多种模态的处理，覆盖视觉语言预训练、文生图、文生视频等丰富的跨模态任务。它提供开箱即用的开发体验，同时满足开发者灵活定制的需求，旨在探索通用人工智能。此外，PaddleMIX在文档图像理解领域表现出色，特别擅长中文文档的理解与问答，具备高效的推理性能和多种部署方式。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列，能够处理时长超过20分钟的视频，同时在文档理解方面表现出显著优势。该模型支持多模态输入，能够处理视频和文本数据，适用于多种应用场景。

DUSt3R开源项目 – 无需先验信息的3D重建

DUSt3R 是一种全新的3D立体重建方法，仅需两张图片即可完成3D建模，无需相机校准或视点姿态等先验信息。该项目提供了从图像对到3D点云的完整流程，支持多种分辨率和模型配置，适用于多种场景的3D重建任务。