Story-Adapter是一个无需训练的迭代框架,旨在通过优化生成连贯的故事画面,从而增强故事讲述的生动性和趣味性。该框架特别适合长篇故事的可视化展示,帮助用户更好地理解和体验故事内容。
3DTopia AI,几分钟可通过文本快速创建整个3D电影场景,来自上海人工智能实验室。该项目使用两阶段生成模型,首先通过扩散模型快速生成候选3D场景,然后细化选定素材,以实现高质量的3D内容创作。
diffuzers是一个用于🤗扩散模型的Web用户界面,致力于为用户提供简单易用的工具,以便轻松创建和处理图像。它支持多种扩散模型,用户可以实时预览生成的结果,并且能够与其他工具进行无缝集成。
WebGPU-SAM2是一个利用WebGPU技术在浏览器中实现的图像分割工具,可以完全在客户端运行,保护用户数据隐私,基于Facebook Research的Segment Anything 2模型,无需服务器处理。
腾讯推出的高分辨率3D资产生成工具,能通过图片或文字生成高质量的3D模型和纹理,让3D创作变得简单高效
Matching Anything By Segmenting Anything(通过分割任意内容匹配任意内容),是一种用于稳健实例关联学习的新方法,能够在不同领域中匹配视频中的任何对象而无需跟踪标签。
Vary-toy是一个基于Qwen-1.8B的小型Vary模型,引入了改进的视觉词汇,使模型具有更高的普适性和更好的视觉信息编码能力。
SurgicalSAM是一个高效的手术工具分割项目,支持类提示,旨在提升手术视频分析和医疗图像处理的效率。
一种用于加速扩散模型采样的简单早退框架,主要功能是显著加速生成样本的过程而不牺牲生成样本的质量。
FocalClick是一个旨在实现实际交互式图像分割的项目,能够在真实场景中应用,为用户提供高效的图像对象分割功能。
人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛,我们可以通过眼睛的反射收集场景中多个视角的画面,这些画面是通过相机直接拍摄无法得到的。
Carve3D项目旨在通过强化学习微调,提高扩散模型在多视图重建中的一致性,适用于3D模型生成和场景视觉一致性的改善。
echomimic_v2 是 echomimic 的升级版本,从数字脸升级到数字人,支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入,增强了交互体验,适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。
Stable Fast 3D是由Stability AI推出的一项3D生成技术,能够以极快的速度将单个输入图像转换为详细的3D素材,适用于多个图形密集型行业。
一种在文本到图像合成中实现语义绑定的方法,无需进行训练。
一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架,提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型,具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务,提供Python API和Docker部署支持。
MotionGPT通过微调大型语言模型(LLM)实现运动生成,专为游戏开发而设计,能够生成多种类型的运动动画,并支持实时生成,提升游戏及VR应用的体验。
GraphRAG Visualizer是一个Web工具,用于可视化和探索微软GraphRAG框架生成的数据。它支持2D和3D图形的可视化,数据表格展示以及强大的搜索功能。用户可以上传由GraphRAG索引管道生成的parquet文件,并本地查看和分析数据,包括文档、文本单元、社区、协变量等节点及其关系。
微软的文本转语音头像项目,允许用户通过文本输入创建会说话的头像视频,构建实时交互式机器人。
FastSAM是一个基于CNN的图像分割项目,具有与Facebook提出的SAM相似的性能,但在运行速度上提高了50倍,适用于各种图像分割任务,易于集成和使用。
该项目收录了多种与Segment Anything Model (SAM)相关的扩展和项目,提供了社区贡献的资源和工具,涵盖了不同领域的应用实例,旨在为用户提供丰富的参考和支持。
这是一个专为健身和物理治疗应用设计的高质量视觉数据集,包含多样化的数据样本,支持机器学习和计算机视觉研究。
SDXL Turbo 是一款实时文本到图像生成模型,通过新的蒸馏技术实现了最先进的性能,能够以前所未有的质量生成单步图像。
一种闪电般快速的文本到视频生成模型,使用渐进式对抗扩散蒸馏技术,生成速度比原始 AnimateDiff 快十倍以上。
TinyCLIP通过亲和模仿和权重继承技术,优化CLIP模型的蒸馏过程,提升小型模型在视觉任务中的表现,并支持多模态应用的迁移学习。
本地部署全功能版stable diffusion,支持多种配置和功能,适用于深度学习图像生成任务。该项目允许用户在本地环境中生成高质量的图像,支持多种输入方式和参数设置,能够满足不同的生成需求。
该项目专注于创建可泛化和动画化的高斯头部头像,旨在为虚拟现实和游戏应用提供个性化的虚拟形象。
Imagic Stable Diffusion 是一种基于文本提示的图像生成和编辑工具,能够高效地将用户的文字描述转化为高质量的图像。该项目支持多种图像生成模式,并且开放源代码,用户可以轻松进行自定义和扩展。
Depth Pro 是一个基础模型,用于零样本度量单目深度估计,能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据,利用高效的多尺度视觉变换器,提供高分辨率和准确的深度测量,适用于各种视觉任务。
一个极简的图像处理和GPT/Diffusion模型训练工具,专注于快速实验和简洁操作,提供从初始化到图像生成的高效路径