Segment Anything Model 2 (SAM 2)开源项目 – 图像和视频对象分割的开源AI模型

SAM 2 是 Meta AI 团队开发的开源 AI 模型，专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型，能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验，并共享了用于构建 SAM 2 的数据集 SA-V，许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构，支持实时视频处理，并提供了一个模型在环的数据引擎，通过用户交互改进模型和数据。

Segment Anything Model 2 (SAM 2)的特点:

1. 支持图像和视频中的对象分割
2. 零样本精准抠图
3. 实时视频处理
4. 基于 Transformer 的简单架构
5. 提供大规模视频分割数据集 SA-V

Segment Anything Model 2 (SAM 2)的功能:

1. 图像对象分割
2. 视频实时抠像
3. 多对象跟踪
4. 自动生成图像遮罩
5. 自定义数据集训练和微调

相关导航

fairseq-image-captioning开源项目 – 基于Transformer的图像描述工具

fairseq-image-captioning是一个基于Transformer架构的图像自动描述扩展，专为PyTorch/Fairseq框架设计。它支持高效的图像特征提取与文本生成，提供了预训练模型和训练脚本，同时支持用户使用自定义数据集进行训练。该项目可以轻松集成到现有的PyTorch/Fairseq项目中，用于生成图像描述、训练新模型以及进行模型的微调和优化。

ESM开源项目 – 蛋白质生成与表示模型

ESM（EvolutionaryScale Model）是一个先进的生成式语言模型，专为生物蛋白质的研究而设计。它能够预测蛋白质的序列、结构和功能，为生物学领域提供新的可能性。ESM3是ESM家族的旗舰模型，擅长同时对序列、结构和功能进行推理，并支持通过迭代采样生成完整预测。ESM C则是专注于蛋白质表示学习的模型，提供高效的嵌入表示。

YOLO-NAS开源项目 – 高性能目标检测模型

YOLO-NAS是一个全新的目标检测模型，其在性能上超越了之前的目标检测模型，尤其适用于小型设备。该模型完全开源，具有高效的实时处理能力，特别适合在边缘设备上应用。通过利用流行的注意机制，YOLO-NAS显著提高了小物体检测的准确性和物体定位的精度，使其成为计算机视觉任务中的理想选择。

SegFormer开源项目 – 高效图像分割模型

SegFormer是一个基于Transformer架构的深度学习模型，专为图像分割任务设计。它能够在保持高精度的同时显著降低计算负担，适用于从街景到医学图像等多种领域。其轻量化设计使其特别适合在资源有限的设备上运行，同时作为开源项目，支持社区贡献和定制化开发。

mCTSegmentation开源项目 – 深度学习微CT图像分割

mCTSegmentation是一个专门用于人类骨软骨组织中微计算机断层扫描（micro-CT）图像的分割项目，特别关注于骨软骨组织的骨膜分割。该项目由奥卢大学的研究人员开发，采用深度学习技术进行分割任务，并且是开源的，代码可在GitHub上获取。

All Atom Diffusion Transformers – 统一生成分子与材料的框架

All Atom Diffusion Transformers 是一个统一的框架，用于生成分子和材料，为化学和材料科学领域带来革命性突破。它通过打破领域限制，实现了分子和材料的统一生成，并利用 Transformer 架构进行高效生成。该项目开源代码，促进了研究和创新。

OmniGen-ComfyUI开源项目 – 简化图像处理的友好界面

一个为OmniGen定制的界面友好型节点，让你轻松实现文本到图像的转换，编辑图片，以及进行图像分割等操作，特色在于简化的图像处理流程和直观的用户界面

AirLLM开源项目 – 低内存下运行大型语言模型

AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理，或者让 405B Llama3.1 在 8G 的 GPU 卡上运行。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

TabPFN开源项目 – 高效表格数据处理模型

TabPFN 是一款针对表格数据的基础模型，基于 Transformer 架构，专门设计用于处理表格数据中的关系和模式。它通过局部自注意力机制捕获表格数据中的局部相关性，性能优于传统方法，且运行速度显著更快。TabPFN 已成功应用于医疗保健、金融和制造业等领域，用于预测疾病风险、检测欺诈和优化供应链等任务。

Track-On开源项目 – 实时视频点跟踪模型

Track-On是一个基于Transformer架构的在线点跟踪模型，专门为实时视频点跟踪而设计。它能够在逐帧处理视频时保持高效性，适用于直播视频等实时应用场景。通过紧凑的记忆模块，Track-On在保证高实时性的同时，优化了内存使用，提升了整体性能。

YOLOE开源项目 – 高效目标检测与分割模型

YOLOE是一个实时高效的目标检测与分割模型，支持文本、视觉和无提示三种模式，具有卓越的零样本文本提示性能，训练成本降低3倍，推理速度快，YOLOE-v8-S在LVIS上的AP达到27.9，速度提升1.4倍。

transformer_lexical_shortcuts开源项目 – 提升翻译性能的词汇捷径模型

该项目通过引入词汇捷径机制，旨在拓宽神经机器翻译中的表示瓶颈，从而提升翻译模型的性能。它基于Transformer架构，优化了模型的表示能力，支持多种语言的机器翻译任务，并提供了预训练模型和训练代码，便于复现和扩展。

Chai-Lab开源项目 – 生物分子结构预测的尖端模型

Chai-Lab 是一个用于生物分子结构预测的多模态基础模型，结合了自然语言处理、计算机视觉和几何深度学习技术。它利用 Transformer 架构和自监督学习，能够在原子级别预测蛋白质、小分子、DNA、RNA 等生物分子的三维结构。项目支持多种输入格式和高级功能，如 MSA 生成、模板使用和约束条件，适用于复杂的生物分子预测任务。

暂无评论

暂无评论...