在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B上定义的交互分割任务和其他分割任务(如全景分割和部件分割)上多任务联合训练的相互促进作用。
CAST项目旨在通过图像分割和识别技术,实现层次化的图像处理,提升对象识别的能力。
NanoSAM是一个经过蒸馏的Segment Anything (SAM)模型,能够在NVIDIA TensorRT上实现实时推理,适用于各种图像分割任务。
Annotab Studio 是一个基于网页的工具,用于创建和管理数据注释。它为 AI 项目提供了无缝的数据平台,允许用户通过物体检测功能对图像进行标注和注释。
Hiera是一个层次化视觉变换器,专注于视觉任务,优化性能并避免不必要的复杂性。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
Infini-Megrez是全球首个端侧全模态理解模型,能够同时处理图像、音频和文本数据,具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值,支持场景理解、OCR、中英文语音输入及多轮对话等功能,适用于多种复杂场景下的数据理解和分析。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
ARRTIFICIAL是一个强大的人工智能平台,利用先进的机器学习和深度学习算法,实现数据分析和预测建模的自动化。用户只需上传数据,选择所需的算法和参数,平台便可自动分析和建模。
Roboflow是一个综合平台,旨在帮助软件识别和分析图像和视频中的物体,适用于开发者和工程师,简化数据集创建、模型训练和生产部署的过程。
Grounded-Segment-Anything 是一个结合了 Segment Anything、BLIP、Stable Diffusion、Whisper 和 Grounding DINO 等多种先进 AI 模型的项目。它通过集成图像分割、物体检测、图像生成和语音识别等多种能力,实现了对图片中任意物体的识别、分割和生成,支持多模态输入和输出,能够处理复杂的 AI 工作流,适用于多种创新应用场景。
Hasty是一个集成平台,帮助用户从原始图像或视频生成可投入生产的AI模型,无需复杂的MLops技能或集成。
arivis Cloud是一个配备AI工具包的平台,允许研究人员训练AI模型,自动化和自定义他们的图像处理任务。用户可以注册账户,上传图像或数据,使用AI工具包选择所需任务,训练AI模型或应用预训练模型,定制工作流程,自动化图像处理。
FocalClick是一个旨在实现实际交互式图像分割的项目,能够在真实场景中应用,为用户提供高效的图像对象分割功能。
机器感知是一个自动化智能工具,允许用户搜索和过滤大型视频和图像数据集中的特定对象、异常、相似图像或3D特征。该项目旨在通过提供一个处理和搜索计算机视觉数据集的工具,将注释和标记成本降低10倍。用户只需上传大型图像或视频数据集,然后使用搜索和过滤工具,根据文本、相似图像或3D特征缩小数据集,最终提供过滤结果,帮助用户专注于需要注释的图像,从而节省注释和标记成本。
MVSplat360 是一个用于快速生成 360 度场景的项目,利用稀疏视图进行前馈生成,旨在为虚拟现实和增强现实提供高质量的场景合成。
Nyckel是一个利用AI自动标记图像和文本的平台,旨在简化分类过程,适合所有人使用,无需成为机器学习专家。用户可以在短短5分钟内构建自定义分类器,轻松处理图像排序、文本审核和实时内容标记等任务。