Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型，参数量为1.8B，能够在消费级显卡（如1080Ti）上训练和运行。它支持多种视觉语言任务，包括处理图片中的文字、图表、公式，以及对象检测、图像描述、视觉问答等，同时支持中英文。通过改进的视觉词汇表增强视觉感知能力，Vary-toy在多个数据集上的表现与7B级模型相当甚至更好，且计算开销更低。

Vary-toy的特点:

1. 处理图片中的文字、图表和公式
2. 进行对象检测和图像描述
3. 支持视觉问答和视觉基准测试
4. 中英文双语支持，计算开销低
5. 在多个数据集上表现与7B级模型相当甚至更好

Vary-toy的功能:

1. 克隆GitHub仓库并安装依赖包，运行演示脚本进行本地测试
2. 访问官方演示网站，上传图片并输入提示指令进行在线体验
3. 使用DeepSpeed进行模型训练，适配其他基础语言模型
4. 应用于文档OCR、对象检测、图像描述、视觉问答等场景

相关导航

Interpolating between Optimal Transport and MMD using Sinkhorn Divergences – “在图像处理领域中进行图像特征的比较和分析”-研究最优传输与MMD的插值方法

该项目研究通过Sinkhorn散度在最优传输和最大均值差异（MMD）之间进行插值的方法，旨在提供一种有效的数据比较工具，支持多种数据分布的插值，帮助解决机器学习、统计学和图像处理等领域中的相关问题。

VisionAgent官网 – 加速视觉AI开发的工具集

VisionAgent是由LandingAI开发的可扩展视觉AI技术，旨在通过自动化代码生成、模型选择和部署流程，帮助开发者在几分钟内构建视觉功能应用。它支持图像/视频处理任务（如物体检测、图像分类），提供从快速原型开发到生产部署的全流程解决方案，并集成多款开源模型和工具。

DeepSwapper官网 – 免费的AI换脸工具

Deep Swapper是一个免费的AI图像换脸工具，用户可以轻松地在照片中无缝地交换面孔。只需选择要交换面孔的图像，让强大的换脸技术为您完成其余工作。

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS是一个一站式的语言-视觉智能库，支持多种语言-视觉任务，集成多种预训练模型，提供简单易用的API，以及自定义模型的训练和评估，具备高效的推理速度和性能。

Grok API官网 – xAI推出的AI模型接口

Grok API是xAI公司于2024年10月推出的人工智能模型接口，支持函数调用，便于与数据库和搜索引擎集成。目前提供“grok-beta”模型，支持文本和代码生成，未来计划推出视觉模型用于图像处理。定价较高，输入token为5美元/百万，输出token为15美元/百万。与X平台深度集成，支持图像生成、新闻总结等功能。尽管功能强大，但用户报告支付和使用配额问题，数据中心运营也引发环保争议。

Simon官网 – 强大的语义搜索库

Simon是一个基于Python的库，支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的（Apache 2.0），并且可以在Postgres实例上运行。

Background Remover官网 – AI驱动的在线照片编辑工具

Background Remover 是由 Magic Studio 开发的在线照片编辑工具，利用先进的 AI 技术帮助用户快速移除照片背景、无损放大照片并删除不需要的元素。该工具设计高效且易用，适合专业摄影师和普通用户，提供高效、无忧的编辑体验。网站还提供其他工具如图片生成和自动抠图，扩展了用户的编辑选择。

RembgAI官网 – 快速、准确的在线背景去除工具

RembgAI 是一个快速、准确且免费的在线服务，用户可以轻松地从图像中去除背景。它使用先进的算法，瞬间增强照片，通过去除不需要的背景来提升图像质量。

aidea-server开源项目 – AI大模型聊天与绘画集成平台

aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品，支持全平台（web/h5/pc/Android/iOS），包含会员账户系统和支付系统，完成度非常高。前后端项目完全开源，用户可自行部署，开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等，以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外，还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。

Flojoy Studio官网 – 领先的开源硬件自动化桌面应用

Flojoy Studio是一个开源桌面应用，专为自动化测试、测量和控制硬件设备而设计，支持电路板、示波器、函数发生器、电源、机器人手臂和电机控制器等多种设备。用户可以通过下载Flojoy Studio，连接超过700种支持的台式仪器、传感器、电机、相机、数据采集板和数字万用表，构建和运行强大的基于Python的工程和AI应用，无需任何编码知识。

Mimiko官网 – 在线照片编辑与修复平台

Mimiko是一个在线平台，提供照片编辑和修复服务。用户可以对老照片进行放大和修复，基于输入进行图像处理，模拟老化效果，去除背景，并使旧照片焕发新生。使用Mimiko非常简单，只需创建账户，上传所需照片，选择编辑选项，让Mimiko为您工作。

Interior Design API官网 – 为应用提供室内外设计能力

Interior Design API 是一个可以为您的应用程序或网站添加室内和外部设计能力的API。它结合了先进的AI技术，满足各类房地产需求，提供多种设计和图像处理功能。

RMBG-1.4官网 – 高效的开源图像背景移除工具

RMBG-1.4是一个开源的图像背景移除工具，经过实测效果良好，支持多种图像格式，易于集成到现有项目中，适用于各类图像处理需求。

CogVLM开源项目 – 多模态视觉语言AI模型

CogVLM是一款结合视觉和语言的大型AI模型，专为多模态任务设计，能够分析图片内容并生成精准的文本描述、回答问题，甚至进行复杂的推理。它在多模态理解上表现优异，支持OCR识别、场景分析、细节描述等功能。CogVLM通过高效整合图像和文本处理能力，为开发者提供构建复杂AI系统的可靠工具，适用于智能问答、图片内容创作、智能搜索等多种应用场景。