该项目每天提供一句中国古诗词,并使用先进的AI技术(如Bing DALL-E-3)生成相应的高质量图片。用户可以欣赏古诗词的美,同时获得视觉艺术的享受。项目每日更新,支持多种风格的图片生成,旨在将传统文化与现代科技相结合。
该项目是一个基于SAM的显微镜分割和跟踪工具,旨在通过自动化技术提高显微镜图像分析的效率。它集成了先进的深度学习模型,能够支持显微镜图像的自动分割和细胞在时间序列中的变化跟踪,适合处理大规模数据集,并提供用户友好的界面。
第一个无自然语言的纯视觉大模型,证明了纯视觉模型本身也是可扩展的。该模型支持多种数据形式,通过上下文学习来理解并执行下游任务,具有很强的可扩展性。
fullmoon-ios是一个开源的iOS本地LLM项目,支持与本地大模型进行聊天,兼容iPhone、iPad、Mac和Vision设备,旨在提供用户隐私保护的同时,方便用户进行多种文本生成和对话交互。
LaVie是一个强大的文本和图像到视频生成系统,能够将用户提供的文本描述或图像输入转换为高质量的视频输出。该系统具有易于使用的接口,使得生成过程简单快捷,非常适合各种创意和多媒体项目。
Hallo3 是复旦大学与百度联合开源的高动态与真实感肖像动画生成框架,基于扩散变换器网络(Diffusion Transformer Networks),能够生成高度动态和逼真的视频。该项目支持处理非正面视角的肖像动画,渲染肖像周围的动态物体,生成沉浸式逼真背景,并具备强大的泛化能力。通过身份参考网络确保视频序列中的面部身份一致,支持语音音频驱动的连续视频生成。
通过实时渲染和生成式AI输出,提升高质量3D场景创作的灵活性和效率,而不影响核心产品资产。
Hunyuan-Large是腾讯推出的大型MoE(Mixture of Experts)模型,拥有3890亿参数和520亿激活参数,是业界目前最大的开源Transformer基础MoE模型,专注于自然语言处理和长文本理解。
GPT-SoVITS 是一个适用于中文的语音克隆项目,能够通过短时间的语音数据训练出高质量的文本到语音(TTS)模型。仅需1分钟的语音数据即可进行有效的模型微调,支持多语言推理,并提供易于使用的Web界面,适合初学者创建和管理训练数据集。
draw-fast是tldraw的高效绘图工具,借助GPT4-V的智能能力,提供快速而流畅的绘图体验,适用于多种场景,支持实时协作,极大提升了用户的绘图效率和体验。
inpaint-web是一个高效的图像修复工具,能够处理大尺寸图像,并提供多种实用功能,帮助用户轻松修复和编辑图像。
Follow-Your-Click 是一款允许用户通过简短的提示和单击指定区域来创建动画效果的工具。它支持多种动作表达,利用先进的技术提高视频生成质量,并增强模型对短提示的跟随能力。
ReSyncer 是一个基于风格重构的工具,能够生成高保真的视听同步面部表演者,支持快速个性化微调,适用于各种视频内容创作。
Huggingface Diffusers的OneFlow移植版,比PyTorch版性能更高,支持多种扩散模型,易于集成与使用。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
GPT Assistant 是一个功能强大的安卓客户端,支持用户通过语音、文字和图像与 ChatGPT 进行互动,提供便捷的聊天体验。
ControlNeXt 是一种可控视频和图像生成方法,支持多种形式的控制信息,参数减少高达90%,实现更快的收敛速度和出色的生成效率。该项目提供了与 ControlNet 相比更高效的训练方式,并能够与其他 LoRA 技术无缝集成。
将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中,只需一个提示,即可完成所有需求
该项目提供针对GPT-4V和DALL-E3的多模态提示,旨在增强多模态模型的功能,促进跨模态的生成和理解,同时支持各种应用场景的提示设计。
一个开源的漫画自动翻译神器,利用 GPT-4 Vison 实现一键自动识别并翻译,支持多种格式和语言之间的互译。
sd-webui-colab是一个用于维护stable-diffusion-webui在Google Colab上版本的项目,提供用户友好的界面和多种图像生成模型,方便用户进行图像创作和风格迁移。
Nutlope/logocreator是一个完全免费开源的AI驱动的Logo生成器,能在几秒钟内创建出专业级的标志,支持自定义风格,满足个性化需求,用户可以自由使用并参与改进。
DiffSynth Studio是一款开源的Diffusion引擎,重构了包括Text Encoder、UNet、VAE等在内的架构,在增强计算性能的同时保持了与开源社区模型的兼容性。它支持多种生成任务,包括长视频合成、高分辨率图像生成、卡通着色、视频风格化等,并且支持中文模型和多种模型的微调。此外,它还提供了无需本地部署的Colab运行笔记,方便用户一键动漫化视频。
meta-prompts是一种利用扩散模型处理视觉感知任务的方案,通过引入可学习的元提示到预训练的扩散模型中,以提取适合特定感知任务的特征。该方法旨在提高模型在各种视觉任务中的表现,支持丰富的语义信息提取,满足类别识别、深度感知和关键点感知等需求。
基于ONNX Runtime的Java的Stable Deffusion管线,具有GUI界面和负面文本支持,展示了如何在Java中使用ONNX Runtime进行推理,并提供了性能优化的最佳实践
利用Meta Rayban Smart Glasses智能眼镜与GPT-4 Vision集成的实验性尝试,旨在实现实时图像处理和增强现实功能,适用于多种应用场景如教育、医疗和娱乐领域。
用Rust编写的现代OCR引擎,可以作为一个命令行工具和库来使用,目标是创建一个在各种图像上都能良好运行的OCR引擎,包括扫描文档、包含文本的照片和屏幕截图等,较之前的引擎如Tesseract,需要更少的预处理工作。
Fast Stable Diffusion CPU是一款专为CPU优化的快速稳定扩散模型,在Core i7-12700上生成一张512x512的图片仅需21秒,具有优越的性能和广泛的兼容性,适合各种计算环境。
Ruined Fooocus是一款兼容多种Flux Checkpoints的工具,旨在帮助用户制作Kris Wu (Wu Yi Fan) 的写真照。该工具支持Civitai.com的checkpoint和LORAs,并提供AI推荐功能,以帮助用户选择合适的checkpoint和LORAs,从而节省试错时间,提高制作效率。
EcoAssist是一个开源应用,旨在简化生态学家处理相机陷阱图像的工作。它提供了自动物种检测的自定义模型标注、训练和部署功能,能够显著节省图像审查时间,从而帮助生态学家更好地专注于保护工作。