2025年最强大的10个计算机视觉AI工具推荐 | 第 4 页

Zolak官网 – 创新的3D产品可视化软件

Zolak是一款创新的3D产品可视化软件，专为家具零售商设计，利用计算机视觉和人工智能技术提升顾客的购物体验，允许他们可视化和个性化家具产品。

0

3D产品可视化软件人工智能增强购物体验家具个性化

Devzery官网 – AI驱动的测试平台

Devzery是一个AI驱动的测试平台，通过精确的测试用例生成，革新软件测试流程。它利用先进的计算机视觉和DOM分析，提供定制化场景，确保全面覆盖。

0

AI驱动的测试平台DOM分析QA流程优化定制化测试场景

Verificient官网 – 数字身份验证与远程监控解决方案

Verificient是一家专注于生物识别、计算机视觉和机器学习的公司，提供世界级的数字身份验证和在线远程监控解决方案。其产品可帮助高等教育机构、K12学校和企业确保在线评估的完整性，防止考试不当行为，并安全地验证用户身份。

0

在线评估数字身份验证机器学习生物识别

Anyscale | Scalable Compute for AI and Python官网 – 统一计算平台，简化AI与Python应用开发

Anyscale是一个统一的计算平台，旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型（LLMs）。

0

可扩展AI应用微调大型语言模型生成性AI统一计算平台

Avumi官网 – 虚拟试衣，时尚新体验

Avumi是一个时尚科技平台，致力于为在线购物者提供数字化的服装试穿体验。该平台利用AI、计算机视觉和3D算法的独特组合，帮助用户在时尚品牌的网站上进行虚拟试衣。

0

3D算法AI时尚科技在线购物体验虚拟试衣

Jetcounter官网 – 基于AI的物品计数应用

Jetcounter是一款基于人工智能的物品计数应用，利用计算机视觉软件准确地从照片中计数相似物品。用户可以选择内置的不同类别模板，上传照片或使用设备摄像头，Jetcounter会识别并计数图片中的物体，支持放大查看细节并手动纠正错误。

0

AI物品计数应用库存管理自动化物体识别计算机视觉

MacGaiver官网 – AI驱动的macOS助手

MacGaiver是一个利用计算机视觉技术的macOS助手，能够回答您关于任何应用程序的问题。用户只需按下一个键盘快捷键，即可在当前窗口中询问，获取上下文中的答案，无需离开当前应用。

0

MacOS助手上下文相关回复实时问题解答计算机视觉

RelateAnything开源项目 – 分析图像中对象之间的关系

这个项目能分析图像中对象之间的关系，是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示：Panoptic Scene Graph Generation。

0

Panoptic Scene Graph GenerationSegment-Anything模型图像对象关系分析计算机视觉

Chinese LLaVA-支持中英文双语视觉开源项目 – 文本对话的开源多模态模型

Chinese LLaVA是一个支持中英文双语的开源多模态模型，能够进行视觉与文本的结合对话，具备高效的理解能力和灵活的应用场景，适合商用开发。

0

中英文双语对话商用开发多模态模型开源AI工具

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4是一款结合视觉与语言的大模型，能够基于图片内容生成描述、回答问题，甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色，可识别图像细节、物体关系，并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本，提供强大的自然语言处理能力，适用于多种AI应用场景，包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。

0

MiniGPT-4图像与文本结合应用图像描述生成多模态信息处理

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

0

代码生成图像生成复杂推理多模态AI模型

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

0

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

LlamaV-o1开源项目 – 大型多模态模型，支持自发推理

LlamaV-o1是一个大型多模态模型，能够进行自发推理。在VCR-Bench基准测试中表现优异，超越了多个知名模型，如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展，使用Beam Search提升效率，特别适合复杂的多步视觉推理任务，具备高准确性和高效率。

0

Beam SearchLlamaV-o1VCR-Bench多模态模型

ID-Blau开源项目 – 通过隐式扩散去模糊图像

ID-Blau是一个基于隐式扩散的方法，用于图像去模糊，通过重模糊增强技术来提升图像质量，适用于计算机视觉任务。

0

图像去模糊图像质量提升计算机视觉隐式扩散

MoveNet开源项目 – 谷歌下一代姿态估计

MoveNet是一个基于深度学习的高效姿态检测模型，能够在PyTorch环境中实时估计人体姿态，支持多种输入格式，并能在多个设备上运行，包括移动设备。

0

MoveNetPyTorch健身跟踪姿态估计