FollowYourClick是由腾讯混元、清华大学和香港科技大学联合推出的图生视频模型。用户可以通过点击图片的特定区域并添加简短的提示词,将静态图片转换为动态视频。该项目通过简单的交互方式,实现了对图片中特定区域的动画生成,广泛应用于创意设计、教育演示、广告制作等领域。
DUSt3R 是一种全新的3D立体重建方法,仅需两张图片即可完成3D建模,无需相机校准或视点姿态等先验信息。该项目提供了从图像对到3D点云的完整流程,支持多种分辨率和模型配置,适用于多种场景的3D重建任务。
aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品,支持全平台(web/h5/pc/Android/iOS),包含会员账户系统和支付系统,完成度非常高。前后端项目完全开源,用户可自行部署,开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等,以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外,还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。
SDXS是小米开源的AI绘画扩散模型,通过知识蒸馏技术和单步DM训练方法,显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型,分别针对512x512和1024x1024分辨率的图像生成需求,单GPU环境下推理速度分别达到约100 FPS和30 FPS,相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练,适用于图像条件控制和图像到图像的高效转换。
Twitter-Insight-LLM是一个开源项目,主要用于从Twitter抓取数据,并支持基于嵌入的图像搜索、数据分析和可视化、图像标注等功能。项目利用Selenium进行数据抓取,支持将数据保存为JSON和Excel格式,并提供初步的数据分析和图像标注功能。此外,项目还引入了实验性的基于嵌入的图像搜索功能,支持多语言搜索。
Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统,专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本,能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件,如肖像和参考姿势图像,并且提供了不同分辨率的模型权重。
VTracer 是一个开源软件,用于将位图(如 JPG 和 PNG)转换为矢量图形(SVG)。它能够处理高分辨率扫描图像和低分辨率像素艺术,适用于历史文化资料数字化、设计工作和游戏开发等场景。与 Potrace 相比,VTracer 可以处理彩色图像,并且输出更紧凑的矢量文件。它最初设计用于处理高达千兆像素的历史蓝图扫描,同时也适用于复古游戏艺术的像素化处理。
FaceSwap 是一个基于深度学习的工具,能够在图片和视频中识别并交换人脸。它支持多种功能,包括人脸交换、面部表情转换等,适用于娱乐、影视制作、隐私保护等领域。项目提供了详细的安装和使用指南,支持多种操作系统(Windows、Linux、MacOS),并且需要现代GPU以获得最佳性能。FaceSwap 不仅是一个强大的工具,还为开发者和爱好者提供了学习和实验AI技术的机会。
LoG是浙江大学3DV小组提出的一种新型3D场景高效渲染方法,旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。它采用类似细节层次(LOD)的思想,通过树状结构存储高斯原始体,实现场景的高效渲染,适用于游戏开发、电影制作、城市规划和虚拟旅游等领域。
IC-Light 是一款开源项目,用于操纵图像的照明效果。它提供了两类模型:文本条件重照明模型和背景条件模型。文本条件模型允许用户输入文本提示词(如“左侧光线”、“日光”)来生成具有特定光照方向和特征的图像。背景条件模型通过结合背景提示信息,可以对前景物体进行不同风格的光照变化。该工具利用HDR图像中光线传播的独立性,确保不同光源的混合效果与混合光源产生的效果一致。
Layerdivider 是一个基于机器学习的开源工具,能够将单张图片转换为分层的PSD文件。它通过识别并分离图像中的颜色区域,构建出与原始图像色彩相近但更具组织性的图层。该工具支持在Google Colab上运行,也可以在本地安装使用。
OpenCLAY是由影眸团队推出的3D生成AI模型,能够在几十秒内通过文本生成高质量的3D模型。该模型具有逼真的材质效果,支持多种输入类型和用户控制,适用于广泛的3D创作需求。
DynamiCrafter是由香港中文大学、腾讯AI实验室和北京大学共同开发的项目,利用视频扩散先验技术将静态图像转换为动画。该项目支持多种主题和风格,如风景、人物、动物、交通工具、雕塑等,并且能够生成高分辨率、动态连贯的视频。DynamiCrafter还提供了生成帧插值和循环视频生成的功能,适用于多种应用场景,如故事讲述视频生成等。
Rembg 是一款开源工具,专注于快速且精确地从图片中移除背景。它支持多种输入输出格式,可以作为命令行工具、库或Docker容器使用。Rembg 提供了多种预训练模型,适用于不同的使用场景,如人像分割、动漫角色分割等。它还支持GPU加速,适用于大规模图像处理任务。
CompreFace是一个免费且开源的人脸识别系统,基于Docker应用,可以作为独立服务器或部署在云中。它提供了REST API,支持人脸识别、人脸验证、人脸检测、关键点检测、口罩检测、头部姿态检测、年龄和性别识别等功能。用户无需具备机器学习技能即可轻松集成和使用。CompreFace支持CPU和GPU,易于扩展,且具备角色管理系统,方便控制对服务的访问权限。
DeepFaceLive 是一款基于深度学习技术的实时面部交换软件,支持在直播或视频通话中进行低延迟的面部替换。它能够完美复刻五官、脸型、嘴型、表情、牙齿和发型,生成的图像真假难辨。该软件与著名的换脸软件 DeepFake 同源,提供了多种功能模块,包括面部交换、面部动画等,适用于多种场景。
ToonCrafter 是一个由香港中文大学、香港城市大学和腾讯人工智能实验室联合开发的工具,旨在帮助动画师生成和优化卡通动画的过渡效果。它通过生成模型和插值技术,解决了卡通动画中帧与帧之间过渡不自然的问题,显著提升了动画制作的效率和效果。项目支持多种功能,包括卡通草图插值、草图上色、稀疏草图引导、参考图像上色、细节注入与恢复以及用户交互控制。
99AI是一个可商业化的AI Web平台,提供一站式的人工智能服务解决方案。它集成了多种AI技术,包括对话、绘画、语音处理等功能,支持私有化部署和多用户管理,适合企业、团队或个人快速构建AI服务。前端使用Vite + Vue3框架,后端采用Node.js + NestJS,保证了服务的稳定性和扩展性。
MimicBrush是一个基于参考图像的零样本图像编辑工具,能够根据用户提供的参考图像进行局部重绘。用户只需在原图中指定需要编辑的部分,并上传一张参考图像,MimicBrush即可自动捕捉两者之间的语义对应关系,并完成图像编辑。该项目支持多种模型和框架,如HuggingFace和ModelScope,并提供本地和在线演示。
OutfitAnyone是由阿里巴巴开发的基于扩散模型的2D虚拟试穿框架,旨在解决现有虚拟试穿技术在生成高保真、细节一致结果时遇到的挑战。该项目支持任何服装和任何人的虚拟试穿,具有广泛的应用场景,如电商、时尚设计等。项目目前已在ModelScope和Hugging Face上提供体验版本,用户可以通过上传服装图像进行虚拟试穿。
Stable Fast 3D是由Stability AI推出的开源模型,专注于从单张图片快速生成高质量的3D网格模型。该模型在0.5秒内即可将图片转换为详细的3D资产,包括UV展开的网格、材质参数和减少光照烘焙的反照率颜色。Stable Fast 3D基于TripoSR,但引入了多项新技术,确保生成的网格无伪影,并且纹理和材质参数易于集成到游戏引擎中。
Diffree是一种基于扩散模型的图像编辑工具,专门用于通过文本描述在图像中添加对象。它无需用户手动绘制遮罩或边界框,而是依靠模型自动预测对象的位置和形状,实现新对象的无缝融合。Diffree基于Stable Diffusion模型,并结合了一个额外的掩码预测模块,能够在保持背景一致性的同时,根据文本引导添加新对象。
SAM 2 是 Meta AI 团队开发的开源 AI 模型,专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型,能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验,并共享了用于构建 SAM 2 的数据集 SA-V,许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构,支持实时视频处理,并提供了一个模型在环的数据引擎,通过用户交互改进模型和数据。
LabelU 是一个全面的数据标注平台,专为处理多模态数据设计。它提供了一系列先进的标注工具和高效的工作流程,使用户能够轻松应对图像、视频和音频的标注任务。LabelU 旨在满足复杂数据分析和模型训练的需求,支持目标检测、分类、分割、关键点、折线、OCR等多种算法场景。此外,它还支持导入预标注的JSONL文件进行二次修改,并允许使用大模型进行自动标注后进行人工批量审核和修改。
Clarity Upscaler 是一款基于最新AI技术的开源图像放大与增强工具,能够将低分辨率图像放大到更高分辨率,同时保持图像的清晰度和质量。它适用于多种场景,如风景、肖像、插图、动漫、室内设计等。项目完全开源,用户可以自由使用和修改其代码。此外,Clarity Upscaler 还提供了多种使用方式,包括通过应用程序、API、ComfyUI、Cog 和 A1111 webUI 等。
UniPortrait是由阿里巴巴集团研究团队开发的一个创新性人像图像个性化框架。该框架能够统一处理单人和多人图像的个性化生成,确保在复杂场景中的身份一致性,并支持高保真度的身份保持和广泛的面部可编辑性。它无需预定义布局,支持自由文本描述,适用于多种应用场景。
SEED-Story是由腾讯ARC实验室推出的一个多模态长篇故事生成项目。它基于大型语言模型(MLLM),能够从用户提供的图像和文本开始,生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。项目包括多模态故事生成模型、StoryStream数据集以及三阶段的技术方法(视觉分词、指令调优和去分词器适应)。用户可以通过提供起始图像和文本,生成多达25个多模态序列的故事,且生成的图像与叙事文本在风格和角色上保持高度一致。
GenWarp是一种从单张图像生成不同视角新图像的方法。它能够在保留原始图像重要信息和细节的同时,生成视角变化后的图像,确保信息不会丢失或扭曲。该项目提供了模型的推理代码,用户可以通过输入图像和相机姿态生成新视角图像。
PuLID(Pure and Lightning ID Customization via Contrastive Alignment)是一种专为文本生成图像模型(Text-to-Image, T2I)设计的无调优身份(ID)自定义方法。其主要目标是在生成个性化图像时,保持高ID相似度的同时,尽量减少对模型原有行为的干扰。用户可以通过提供一张参考照片,并结合文本描述,快速更改图像中人物的外貌和身份特征,同时保持图像的风格和质量不变。
VirtualWife是一个创新的虚拟数字人项目,致力于打造具有AI灵魂的虚拟角色。项目基于ChatGPT实现与用户的自然语言交互,支持在B站进行直播,并允许用户自由更换VRM人物模型。通过自然语言处理和机器学习技术,VirtualWife能够理解和响应用户输入,提供智能化的互动体验。项目支持一键部署、跨平台运行、个性化角色设定、长短期记忆、多模型切换等功能,旨在让虚拟数字人融入人类生活,作为情感导师或心理咨询师,解决用户的情感需求。