Oyeeah是一个综合性的AI工具平台,旨在通过先进的AI技术帮助用户进行内容创作、数据分析和自动化。它提供了一整套工具,适用于AI内容生成、图像处理、编码辅助等多种任务,旨在提升生产力和创新能力。
AnyModal是一个基于PyTorch的灵活多模态语言模型框架,支持轻松集成图像、音频等多种输入模态。它提供了模块化的架构设计,便于添加新的输入模态处理器和分词器,并拥有丰富的预训练模型库。AnyModal框架将多种输入模态直接融入大语言模型,适用于多模态数据的复杂任务。
该项目研究通过Sinkhorn散度在最优传输和最大均值差异(MMD)之间进行插值的方法,旨在提供一种有效的数据比较工具,支持多种数据分布的插值,帮助解决机器学习、统计学和图像处理等领域中的相关问题。
HandyAI是一个开源应用,利用先进的语言和图像模型,提供现代化的用户体验,外观时尚,操作便捷。
MATLAB是工程师和科学家用于多种应用的全面编程和数值计算平台,适用于数据分析、算法开发和模型创建,特别是在人工智能领域。
AI Expand Image通过先进的AI技术,革命性地提升和处理照片,支持无缝扩展图像,保持原始照片的完整性,适合摄影师、社交媒体影响者、数字营销人员和图形设计师。
Image Pig是一个简单的API,允许用户通过多种编程语言使用AI模型生成和处理图像。用户可以安装该软件包,并通过发送带有图像提示的POST请求来使用API。
Paper2GUI是一个免安装即开即用的AI桌面应用工具箱,支持15种以上的AI模型,涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、图片OCR识别等多个领域,旨在让每个人都能够简单方便地使用前沿的人工智能技术。
AI GPT-4o Chat 是一款基于GPT-4o技术的AI驱动应用,能够处理上传的图像,并根据这些图像进行有意义的对话。
Clio Image Maker 是一款便捷的工具,用户可以通过 Whatsapp 或 Telegram 直接创建和编辑图像。无论身在何处,用户都能利用文本或草图生成视觉内容,使用高级编辑功能,移除背景,参考素材,制作变体,提升图像质量等,极大地丰富了用户的创作体验。
Haechi AI是一个综合性的人工智能平台,集成了Claude 3、Gemini AI和GPT文本助手。该平台支持用户无缝切换不同的AI助手,利用NVIDIA T4、A40和A100 GPU提供强大的计算能力。它还包括图像和音频工具,如Stable Diffusion XL,确保用户能够享受到全面的AI功能和快速的结果。
Genice是一个功能强大的人工智能工具,旨在为用户提供多种智能服务。它结合了最新的AI技术,提供高效、准确的解决方案,适用于各种应用场景。无论是数据分析、文本生成还是图像处理,Genice都能满足用户的需求,帮助提升工作效率。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
FiFi.ai 是一个易于使用的管理型 AI 云平台,旨在通过智能工具和自定义模型加速业务增长。它提供无缝的 API 集成与专属支持,帮助用户制定定制化的 AI 策略以提升业务效率。
Remix-DiT是一种采用扩散变换器的模型,旨在通过多专家系统提高图像去噪的性能,适用于多种图像处理任务。
一个能够直接在文件字节上进行训练和测试的模型,无需在推理时对文件进行解码。
PatchDCT是用于高质量实例分割的补丁细化技术,旨在提高图像分割的精度和效果。该项目利用补丁细化方法,增强了实例分割的性能,适用于多种图像处理任务。
一个让用户更便捷地使用catvton-flux的界面包装器,提供了 ComfyUI 的包装器,用于与 catvton-flux 集成,并提供了一系列工作流程示例和资源
CAST项目旨在通过图像分割和识别技术,实现层次化的图像处理,提升对象识别的能力。
BoundaryFormer是一个利用掩码监督的多边界变换器,专注于实例分割任务。该项目通过多边形边界的学习,提升了实例分割的精度和效率。
一种通过注意力重排列实现零样式迁移的方法,无需针对每种样式的训练数据。
PaddleMIX是基于飞桨的跨模态大模型开发套件,支持图像、文本、视频等多种模态的处理,覆盖视觉语言预训练、文生图、文生视频等丰富的跨模态任务。它提供开箱即用的开发体验,同时满足开发者灵活定制的需求,旨在探索通用人工智能。此外,PaddleMIX在文档图像理解领域表现出色,特别擅长中文文档的理解与问答,具备高效的推理性能和多种部署方式。
人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛,我们可以通过眼睛的反射收集场景中多个视角的画面,这些画面是通过相机直接拍摄无法得到的。
BlinkShot是一个实时AI图像生成器,能够快速生成高质量的图像,支持自定义分辨率和生成步骤,适合艺术创作和设计领域。
一款开源免费的无损放大视频和图像工具,使用多种超分辨率算法实现视频/GIF/图像的无损放大和提高帧速率。
《TensorFlow in Action》教你使用TensorFlow 2构建、训练和部署深度学习模型,涵盖从DL基础知识到NLP、图像处理和MLOps的高级应用。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
OminiControl是一个极简且通用的控制框架,基于FLUX模型,专为高效控制扩散变换模型而设计。它通过仅增加0.1%的参数,无需改变基础模型结构,支持主体驱动控制和空间控制(如边缘引导和图像修复)。该框架适用于多种复杂视觉任务,包括边缘到图像、深度到图像、上色、去模糊和图像修复等。
隐式非线性扩散模型的最大似然训练,旨在通过学习复杂数据分布来提升生成模型的性能。
该项目集成了多种 AI 工具,旨在实现 NovelAI 的批量文生图、图生图、视频转绘、分块重绘等功能,并提供了一个 WebUI 供用户操作和管理这些功能。