由5000张航空和卫星图像组成的数据集,包含了8类土地覆盖标签和220万个分割区域,覆盖了6大洲的44个国家的97个地区
视频内容分析工具,通过结合Llama3.2视觉模型和OpenAI的Whisper模型,本地生成视频描述,提供全面的视频分析解决方案。
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,基于 ChatGLM-6B,具有 62 亿参数,整体模型共78亿参数。该模型可以在消费级显卡上本地部署,适用于多种视觉任务,具备生成诗歌、评论图像的能力,并且支持低显存需求的量化技术。
FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示,提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术,致力于在多种视觉任务中实现更高的性能。
NeuralClothSim结合了神经变形场和薄壳理论,实现了高效的服装模拟,能够生成逼真的服装动态效果,适用于动画、游戏和虚拟现实等多个领域。
Moondream 2b 是一个本地大模型竞技场的追加测试工具,专注于验证码测试,尤其适合方向旋转类型的验证码识别。它通过高准确率的算法,帮助用户快速有效地处理验证码任务。
ComfyUI PhotoMaker是ComfyUI的非官方实现,支持本地模型、自定义尺寸、3倍提速以及多图直接输入,旨在提高图像处理的效率和灵活性。
该项目提供了一种视频语义分割的方法,利用帧间特征重建技术,在半监督学习的框架下提升模型性能,适用于缺乏标注数据的场景。
LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
TransPixar 是一个可以生成透明背景视频的大模型,能够生成一个 RGB 视频和一个 Alpha 通道视频,便于在使用蒙版时任意叠加背景。
DragGAN 正式发布,令人震惊的'拖拽你的图像'功能可是达到了图像操作的新高度,用户可以通过简单的拖拽方式直接对图像进行高质量的生成和编辑,实时反馈使得操作更加流畅,用户友好的界面设计提升了使用体验。
VGGSfM是基于运动的视觉几何深层结构,旨在从输入图像中提取2D轨迹,通过图像和轨迹特征重建摄像机,初始化点云并应用捆绑调整层进行重建细化。
I2VGen-XL是一个基于输入图像生成高清视频的模型,由阿里云达摩院研发,具有良好的泛化性和优越的生成效果。
在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B上定义的交互分割任务和其他分割任务(如全景分割和部件分割)上多任务联合训练的相互促进作用。
ComfyUI虚拟试穿助手:基于ComfyUI平台的IDM-VTON技术适配,实现虚拟试穿功能,帮助用户在不同场景下快速预览服装效果,提升在线购物体验
利用大语言模型和多智能体技术,通过一行需求自动生成运营文案、图片和视频,一键发送多个平台实现快速运营的变革。
HRS-Bench 是一个全面、可靠且可扩展的基准,专为评估文本到图像模型而设计。它提供了多种性能指标,确保在不同模型规模下的可扩展性和可靠性。
Glyph-ByT5是一个定制的文本编码器,旨在实现准确的多语言视觉文本渲染,特别是在平面设计图像中。
MixNeRF是一个模型,通过混合密度建模来实现从稀疏输入生成新视图的合成。
为Lotus深度/法线预测提供的舒适用户界面节点,主要功能是将复杂的深度和法线预测技术通过用户友好的界面简化,方便非专业人士也能轻松使用
一款强大且可离线使用的OCR工具,支持多种视觉模型,并能够处理多种文件格式输出。
GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。
VLM-Visualizer是一个视觉-语言模型注意力可视化工具,旨在通过结合语言模型和视觉变换器的注意力权重,生成输入图像上的注意力图,以直观展示模型在生成特定令牌时关注图像的哪些部分。
Pix2Text 是一个用于将图像中的文本和数学公式转换为可编辑格式的工具,支持 80+ 种语言的识别,提供高精度的识别模型,优化了识别逻辑和输出格式,增强了用户体验。
FlowDCN是一个探索类似DCN架构的项目,旨在快速生成任意分辨率的图像。该项目利用先进的深度学习技术,提供高效的图像生成解决方案,适用于各种应用场景,包括艺术创作、游戏设计等。
利用该项目你可以在你的iOS或macOS应用程序中使用Stable Diffusion生成图像。
Key2Mesh 仅利用 2D 人体姿势关键点作为输入来进行 3D 人体网格重建。该项目支持大规模运动捕捉数据集的训练,并且不依赖于视觉数据的 3D 标签,通过对抗域适应方法提高在 RGB 图像上的性能。其运行速度比之前最先进的模型快 12 倍,极大提升了重建效率。
diffusers-webui是一个基于Gradio构建的Web用户界面,旨在与Stable Diffusion的Diffusers格式协同工作,提供简单易用的图像生成体验。用户可以通过图形界面轻松上传模型、调整参数,并实时预览生成的图像。
SeedEdit 是一款免费的 AI 图像编辑工具,用户可以通过简单的提示来轻松编辑图像。它具有友好的界面,使得图像编辑变得更加直观和便捷。
LoRA inspector是一个专为Stable Diffusion设计的工具,旨在可视化和评估Low-Rank Adaptation(LoRA)模型的性能。它提供了用户友好的界面,支持多种文件格式的导入和导出,方便用户快速比较不同模型的效果,帮助用户选择最佳的模型配置以提升生成效果。