XTalker是基于SadTalker的面部动画生成项目,专为第四代Xeon CPU优化,通过低精度推理和并行处理将推理速度提升10倍,旨在实现高效的面部动画生成。
《人体运动扩散模型》的论文代码,旨在高效生成和编辑人体运动,支持多种运动风格和动作捕捉数据。
edge-tts是一个工具,能够将任何epub书籍转换为有声书,使用微软的Edge TTS引擎生成语音,支持多种语言和语音选项,用户可以自定义语速和音调,提供简单易用的命令行界面,帮助用户节省在Audible上的开支。
Surya 是一款开源且强大的文档 OCR 工具,专注于文档图像的处理和分析。它支持 90 多种语言的文本检测与识别,包括中文、英文、日语、阿拉伯语等复杂语种。Surya 具备高效的布局分析能力,能够准确识别文档中的每一行文字,并支持复杂排版的阅读顺序检测。此外,它还支持表格、图像、标题等元素的检测,并且在非拉丁语系文档处理中表现优异,处理速度比 Tesseract 快 3 倍。
纽约大学的研究人员提出了一种通过隐扩散模型保留不同年龄身份特征的方法,并且只需要少样本训练,即可直观地用「文本提示」来控制模型输出。
Genmo是一个前沿的AI工具,旨在简化视频和图像的创作过程。用户只需输入文本或图像,便可轻松生成高质量的视频内容,适合内容创作者、市场营销人员、教育工作者等各类用户。
Finegrain是一个抠图模型,支持通过提示词或框选主体进行抠图。用户可以灵活选择抠图方式,适用于各种图像处理场景,提供高质量的抠图效果,易于使用和集成。
ComfyUI-3D-Pack是一个先进的3D输入处理套件,使用尖端算法(如3DGS、NeRF等)和模型(InstantMesh、CRM、TripoSR等)生成高质量的3D资产,使3D内容的生成像图像和视频一样便捷。
Ferret-UI 是一个多模态大型语言模型,旨在更好地理解移动用户界面。它具有处理和理解用户界面屏幕的能力,特别是在引用、定位和推理方面,能够有效地处理图像和文本信息,并支持从基础到高级的UI任务训练。该模型还具备任意分辨率技术,可以放大细节,并在各种引用和定位任务上表现优异。
MusePose是一种用于虚拟人生成的姿势驱动图像到视频框架,其结果质量超越了同一主题中几乎所有当前开源的模型。
杜德利是一个快速高效的演示项目,允许用户通过语言指导进行涂鸦,并生成相应的艺术作品,结合了SDXL和T2I适配器,适用于各种创作场景。
该项目探索文本到图像生成的新方法,重点是集成多个LoRA以创建高度定制和详细的图像。
meme-search-engine是一个基于SigLIP模型的模因/表情包搜索引擎,旨在帮助用户通过图像快速找到相关的模因,具备高效的搜索算法和友好的用户界面,支持多种模因格式,并集成了社区反馈系统以提升用户体验。
这个项目收集了很多使用OpenAI Vision API来对图像、视频文件和网络摄像头流进行推理的示例。项目结合了多种技术,实现了高效的图像处理和准确标注,适合开发者和研究人员进行实验和学习。
Segment Matting项目旨在利用SAM(Segment Anything Model)模型提升图像抠图的质量和性能,专注于优化抠图过程,减少锯齿边缘,提升分割的整体准确性。
Slideflow是一个用于组织学图像分析的深度学习流水线,支持Tensorflow/Keras和PyTorch。它提供了一个便捷的环境来构建和管理图像分析工作流程,具有良好的可扩展性,可以满足各种图像分析需求。
使用sam和clip模型完成图像任意指定类别的实例分割,支持指定多个类别。该项目结合了SAM模型的高效实例分割能力和CLIP模型的类别识别能力,提供了一个用户友好的接口,适合各种计算机视觉应用。
TransferAttack是一个基于PyTorch的框架,旨在提升图像分类中的对抗性传递性,提供评估和攻击模型的功能,并对已有的传递性攻击进行分类和评估。
该项目通过AI学习了波兰艺术家Zdzislaw Beksinski的独特艺术风格,利用稳定扩散模型生成灵感丰富的图像,支持高分辨率输出并允许用户自定义输入文本提示,以实现个性化的艺术创作体验。
PoseFormerV2通过利用频域分析,提供高效且鲁棒的3D人类姿态估计,能够在各种条件下表现出色。
一个为OmniGen定制的界面友好型节点,让你轻松实现文本到图像的转换,编辑图片,以及进行图像分割等操作,特色在于简化的图像处理流程和直观的用户界面
OneDiff 是一个用于提升 Stable Diffusion 和 Stable Video Diffusion 性能的工具,提供社区版和企业版,支持多种硬件加速,能够显著提高计算速度和图像生成效率。它适用于机器学习、图像处理和数据分析等多个领域,支持多种模型和场景的实时生成与修改。
DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。它支持多种平台和数据源,使用简单,适合各类用户。
一款能够根据人工指令处理损坏图片并去除不需要元素的AI工具,支持上色、去水印等多种图像修复任务。
一种通过记忆增强非局部注意力机制来提升视频超分辨率的方法,可以有效改善视频质量。
这是一个Stable Diffusion web UI的插件,旨在简化用户在生成图像时的prompt添加和编辑过程,增强用户体验并与Stable Diffusion无缝集成。
Tune-A-Video 是一个基于文本描述生成视频的工具,支持多种风格和主题,能够快速输出高质量视频,且具有用户友好的界面,适合各种创作需求。
Flora Incognita是一款交互式植物识别应用,利用人工智能和公民科学帮助用户识别植物种类并收集相关信息。用户只需拍摄植物照片,应用便能自动识别其种类,用户还可以保存观察记录,为科学研究贡献数据。
Picwisdom.com是一个基于AI的标题生成器,旨在帮助用户通过智能标题提升视觉故事的魅力。无论是社交媒体帖子还是其他视觉内容,Picwisdom都能让每个发布变得独特而难忘。
美图设计工作室是一个易于使用的在线设计工具,即使是设计初学者也能快速创建图形。它提供了丰富的模板和素材,适用于电商主图、电商海报、小红书封面、视频封面、微信日常文案和营销海报的设计。