开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面与模型进行交互,无需复杂的配置或安装
北京大学的多模态图像视频识别项目,旨在将视觉信息融入语言特征空间,以推动大型视觉-语言模型的发展。
一个颇为实用的 AI 扩图工具,允许用户上传图片并选择扩展比例,一键即可完成扩图。
GPT4视觉用例集锦是一个集合了多种视觉任务的项目,基于最新的GPT-4模型,提供丰富的示例和用例,旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口,支持图像分类、对象检测、图像生成和视觉问答等功能,适用于广泛的应用场景。
MagicAnimate 是一个基于扩散模型的框架,旨在通过一张照片和骨骼动画生成时间连贯的人像动画视频。它专注于提高时间连贯性、忠实地保留参考图像以及提升动画的真实感。项目提供了创新的外观编码器和视频融合技术,确保长视频动画的平滑过渡,并在 TikTok 舞蹈数据集上,视频真实度比基线提高了超过 38%。此外,MagicAnimate 还提供了 Gradio 演示,支持本地和在线测试。
AnyControl 是一种新的文本到图像的引导方法,可以从各种控制信号(例如颜色、形状、纹理和布局)生成图像。
SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目,通过整合视觉和语言模态,优化预训练任务的性能。
利用ImageBind和Stable Diffusion相结合,从任意内容生成图像的工具。该工具无需进行训练,通过统一潜空间和Stable Diffusion技术实现图像生成,支持多种输入方式,能够生成高质量的视觉内容。
FitDiT是一个高保真的AI虚拟试穿开源模型,支持用户虚拟更换服装并自动添加区域蒙版,能够为用户提供真实的试穿体验,帮助用户在购买前更好地了解服装效果。
AnimateDiff 是一个增强动画生成的工具,允许用户通过提示词(prompt)来调整和控制动画的内容,新增支持提示词旅行(prompt travel),并集成于Web用户界面,易于使用且与其他动画工具兼容。
用Gradio构建的多功能图像处理工具箱,可以使用GPT-4-vision API或cogVLM模型对图像进行标记。
这是一个用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图生成库,提供了优化的性能和用户友好的接口。
imgfind是一个基于Rust、candle和CLIP构建的图像搜索工具,旨在提供高性能的图像检索体验。它利用深度学习技术和CLIP模型,支持多种图像格式,并具备用户友好的命令行界面,适用于各种图像搜索需求。
HunyuanDiT是腾讯混元发布的文生图大模型,首个中文原生的DiT架构文生图开源模型。它支持中英文双语输入及理解,提供LoRA小规模数据集训练方案与可控制插件ControlNet。该模型通过专属加速库显著缩短生图时间,支持微调和个性化模型创建,并基于ComfyUI的图形化界面或Hugging Face Diffusers通用模型库调用。
使用gpt-4o-mini实现零样本PDF文档的OCR转换,为AI处理提供简洁的Markdown格式输出,优化了文档的视觉呈现和信息提取。
Segment Anything Fast 是一个面向批量离线推断的高效图像分割工具,基于PyTorch实现,旨在提供快速、便捷的图像分割解决方案,适合在本地环境中使用。
diffusers-rs是一个基于Rust和Torch的Diffusers API,旨在提供高性能的图像生成和模型推理功能。它支持多种预训练模型,并提供易于扩展和自定义的架构,适合在机器学习工作流中使用。
该项目展示了如何使用Transformers.js在浏览器中进行AI推理,特别是图像背景去除和语音识别,支持WebGPU加速,保证数据隐私,适合需要实时处理的应用。
LLaMA-Mesh是一个利用大规模机器学习模型生成高质量3D网格的项目,支持多种3D模型格式并提供易于使用的API,能够与现有的3D渲染工具兼容,方便用户生成和导出所需的3D模型。
HPT是HyperGAI的开源多模态大语言模型,能够有效理解文本和视觉输入之间的关系,提供强大的语义理解和生成能力,适用于各种应用场景。
朱雀仿宋是一款持续更新中的,免费商用的高质量仿宋字体,改刻自民国活字「南宋」,并采用AI技术加速造字过程,旨在提供高质量的、支持多语言的正文仿宋解决方案。
DSTA 是一种基于视频的人体姿势估计的新方法,能够将输入直接映射到输出关节坐标。它通过解耦时空聚合网络和联合局部感知注意机制,灵活捕获关节的空间和时间信息,在 PoseTrack2017 数据集上实现了显著的性能提升。
Prompt Extend 是一个利用文本生成技术扩展稳定扩散提示的项目,能够为生成的图像添加合适的风格提示,从而提高图像的多样性和质量。该项目支持多种风格和主题的提示,使得用户可以更灵活地创造出符合需求的艺术作品。
EasyPhoto是一个智能AI照片生成器,能够生成高质量的AI肖像画,并支持个性化数字分身的训练。该工具不需要Stable-Diffusion-Webui,提供用户友好的界面,快速高效的图像处理体验。
这是一个精心策划的妆容迁移资源列表,包含了多种妆容和发型迁移的工具、研究和应用场景,适合开发者和研究人员使用。
阿里最近那个Animate Anybody(上传一张照片,人工智能模型就能让画中人跳舞)的开源版非官方实现,用户可以通过上传照片,利用AI技术生成动态舞蹈动画,支持多种照片格式和舞蹈风格,界面友好,操作简单。
一款一键 AI 换衣的 Chrome 浏览器插件,基于快手 Kolors 图像模型开发,可以在任何电商网站上试穿衣服。
GPT-4V(ision)是微软分析带有图像识别功能的GPT-4的论文,探讨其在多模态输入方面的能力及应用场景。通过理解图像和文本的结合,GPT-4V能够在多个领域和任务中提供支持,推动人机交互的新方式。
支持GPU的 Dockerfile,用于运行Stability.AI具有简单 Web界面的stable-diffusion模型,包括多GPU支持。该项目提供了一个易于部署的解决方案,使用户能够利用Docker快速构建和运行稳定扩散模型,并通过Web界面进行方便的访问和交互。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。