AI图像工具 | 第 65 页

ComfyUI-CogVideoXWrapper 是一个整合了 CogVideoX 模型的 UI 工具，支持图像到视频（Image-to-Video）和文本到视频（Text-to-Video）功能，允许用户通过 ComfyUI 界面轻松进行视频生成，并提供了多种优化和实验性功能。同时，它还可以自定义生成视频中的物体或生物的运动轨迹，基于 CogVideo 模型降低视频生成成本。

0

CogVideo模型开源视频生成自定义视频生成运动轨迹生成

Hiera开源项目 – 层次化视觉变换器

Hiera是一个层次化视觉变换器，专注于视觉任务，优化性能并避免不必要的复杂性。

0

图像分类层次化视觉变换器特征提取目标检测

Anole开源项目 – 开源多模态生成模型

Anole是一个开源的自回归原生多模态模型，专注于交错图像和文本的生成。它支持文本到图像生成、交错文本-图像生成、文本生成及多模态理解，旨在提供丰富的生成能力和理解能力。

0

交错文本-图像生成多模态理解开源多模态生成模型文本到图像生成

ByteFormer-直接在文件字节上进行训练和测试的模型

一个能够直接在文件字节上进行训练和测试的模型，无需在推理时对文件进行解码。

0

图像处理多模态输入文件字节分类模型计算机视觉

DreamTalk官网 – 让人物头像说话的AI项目

阿里AI项目DreamTalk开源，可让人物头像说话，支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。

0

AI项目人物头像对话动态对话嘈杂音频处理

Structure-Aware Motion Transfer with Deformable Anchor Model开源项目 – 基于结构的运动转移模型

该模型在运动转移过程中考虑了结构信息，能够增强动画和游戏中角色的运动效果。

0

动画增强游戏角色运动表现运动转移模型

NeRF-HuGS开源项目 – 改进的动态场景神经辐射场

NeRF-HuGS是一个用于非静态场景的改进神经辐射场项目，利用启发式引导的分割技术，提升动态环境下的场景渲染效果。

0

AR/VR内容生成动态场景渲染神经辐射场计算机图形学

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。

0

GGML模型支持ONNX模型支持OpenAI兼容APIStreamlit UI

GRAM开源项目 – 生成3D感知图像的技术

GRAM是一个用于3D感知图像生成的生成辐射流形模型，能够从2D输入生成高质量的3D图像，利用先进的生成辐射流形技术，提供了真实感和高保真的图像合成效果。

0

3D图像生成生成辐射流形模型高质量图像合成

AI Gallery开源项目 – AI生成的有趣算法演示页面

AI Gallery是一个展示各种有趣算法的页面，通过AI生成不同的演示内容，用户无需前端技术知识即可轻松使用。同时，它集成了多个小组件，利用AI工具辅助开发，旨在为用户提供直观的算法体验和互动效果。

0

AI生成算法演示AI辅助开发无需前端知识

MultiNeRF开源项目 – 支持多种NeRF变体的360度场景表示

MultiNeRF是一个代码发布项目，支持Mip-NeRF 360、Ref-NeRF和RawNeRF，旨在实现360度场景的表示。该项目允许用户生成3D场景，并在不同视角下进行新颖的视图合成。

0

360度场景表示3D场景生成NeRF变体支持新视图合成

MovieBench开源项目 – 面向长视频生成的电影级数据集

一个专门面向长视频生成的电影级数据集，特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事，确保角色外观和音频在不同场景中的一致性，并提供分层的数据结构，包含高层电影信息和详细的镜头级描述

0

机器学习视频生成电影级数据集计算机视觉项目长视频生成数据集

Visual Prompt Tuning开源项目 – 通过提示调整技术提升视觉模型性能

Visual Prompt Tuning是一种通过使用提示调整技术来提高视觉模型性能的方法。该方法可以有效地应用于多种视觉任务，旨在通过对现有模型进行微调，最大限度地减少参数调整，同时增强模型的表现。

0

Visual Prompt Tuning微调技术提示调整技术视觉模型性能提升

aisearch-openai-rag-audio开源项目 – 基于语音的智能知识库问答应用

基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答，集成了Azure OpenAI的GPT-4实时语音API，可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。

0

Azure AI SearchOpenAI GPT-4实时语音API语音交互应用

CLIP开源项目 – 多模态图像与文本理解模型

CLIP（对比语言-图像预训练）是一种神经网络，训练于各种（图像，文本）对之间。它可以通过自然语言指示，在不直接优化任务的情况下，预测给定图像最相关的文本片段，类似于 GPT-2 和 GPT-3 的零样本能力。CLIP 是一个多模态 AI 模型，专注于图像和文本的联合理解，广泛应用于图像检索和内容生成任务。它由文本编码器和图像编码器组成，旨在将文本和图像的输出向量在语义空间中拉近。

0

CLIP模型图像与文本对比学习自然语言处理零样本预测

AI-ContentCraft开源项目 – 多功能的内容创作助手

AI-ContentCraft是一款多功能的内容创作助手，能用AI快速生成故事、播客脚本和多媒体内容，让创作者轻松搞定创意内容。

0

AI内容创作助手AI生成故事创意文案生成多媒体内容创作

texture-diffusion开源项目 – 自动化纹理生成的Blender插件

一个强大的Blender插件，利用扩散模型实现自动化纹理生成。该插件能够直接在Blender内为3D模型生成高质量的纹理，同时支持局部重绘、LoRA模型和IP-Adapter的应用。通过深度ControlNet技术，确保生成的纹理与3D几何特征相符，且支持多纹理着色和UV投影等高级功能，极大地提升了3D创作的效率和质量。

0

3D模型纹理Blender插件ControlNetIP-Adapter

C2FViT开源项目 – 基于变换器的医学图像配准

C2FViT是一个用于医学图像配准的项目，采用粗到细的注册方法，利用变换器架构提高图像对齐的精度，适用于医疗应用中的图像处理。

0

医学图像配准变换器架构图像对齐

LLM-Geo开源项目 – 基于LLM的自动化地理信息系统

LLM-Geo是一个自动地理信息系统(GIS)，利用大型语言模型(LLM)进行空间问题的自动数据收集、分析和可视化。该项目采用GPT-4 API，实现了在Python环境中自动生成、自组织、自验证、自执行和自增长的自主GIS，旨在提高地理数据处理的效率和准确性。

0

GPT-4 APILLM自动化GISPython环境开发地理信息系统

Stable Diffusion XL开源项目 – 高效开源图像生成模型

Stable Diffusion XL 是 StabilityAI 推出的基于扩散模型架构的高效开源图像生成模型，支持生成高质量、细节丰富的图像，广泛应用于艺术创作、设计和内容生成领域。