GPT-4V是一个扩展大型语言模型的项目,通过视觉理解等多感官技能,增强其通用智能,支持多模态输入和人机交互,具有强大的应用潜力。
uCO3D是一个3D世界中的罕见物体数据库,包含约17万旋转台视频捕捉来自LVIS分类体系的物体,提供原始视频、对象分割、相机姿态和3种点云数据,是3D视觉研究的宝贵资源。
ACTION-Net是一个使用多路径激励机制的动作识别框架,致力于在视频数据集中实现高效的动作识别。它采用先进的技术,提供了在不同场景下出色的动作识别性能,适用于实时监控和分析。
一款自由、开放且无审查的图像描述视觉语言模型,专为社区训练扩散模型而设计,支持多样化的图像风格和内容。
该项目旨在通过文本生成多样化和自然的3D人类动作,提供了一种新的方式来创建动画角色的运动表现。
Stable Diffusion 3是由Stability AI开发的一款先进AI模型,能够根据文本描述生成高质量的图像。该模型在生成图像的连贯性和细节上有所提升,支持多种风格和主题,提供用户友好的界面,便于访问和集成。
重打光模型 IC-Light 更新了,基于 Flux 模型,允许用户随意更改图片的打光,并与新背景融合得超级好,是虚拟影棚和产品摄影的神器。
FaceLit是一个神经网络驱动的3D重光照人脸生成项目,能够生成在不同光照条件下的人脸图像,广泛应用于计算机视觉和虚拟现实领域。
ComfyUI-CogVideoXWrapper 是一个整合了 CogVideoX 模型的 UI 工具,支持图像到视频(Image-to-Video)和文本到视频(Text-to-Video)功能,允许用户通过 ComfyUI 界面轻松进行视频生成,并提供了多种优化和实验性功能。同时,它还可以自定义生成视频中的物体或生物的运动轨迹,基于 CogVideo 模型降低视频生成成本。
Hiera是一个层次化视觉变换器,专注于视觉任务,优化性能并避免不必要的复杂性。
Anole是一个开源的自回归原生多模态模型,专注于交错图像和文本的生成。它支持文本到图像生成、交错文本-图像生成、文本生成及多模态理解,旨在提供丰富的生成能力和理解能力。
一个能够直接在文件字节上进行训练和测试的模型,无需在推理时对文件进行解码。
阿里AI项目DreamTalk开源,可让人物头像说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。
该模型在运动转移过程中考虑了结构信息,能够增强动画和游戏中角色的运动效果。
NeRF-HuGS是一个用于非静态场景的改进神经辐射场项目,利用启发式引导的分割技术,提升动态环境下的场景渲染效果。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
GRAM是一个用于3D感知图像生成的生成辐射流形模型,能够从2D输入生成高质量的3D图像,利用先进的生成辐射流形技术,提供了真实感和高保真的图像合成效果。
AI Gallery是一个展示各种有趣算法的页面,通过AI生成不同的演示内容,用户无需前端技术知识即可轻松使用。同时,它集成了多个小组件,利用AI工具辅助开发,旨在为用户提供直观的算法体验和互动效果。
MultiNeRF是一个代码发布项目,支持Mip-NeRF 360、Ref-NeRF和RawNeRF,旨在实现360度场景的表示。该项目允许用户生成3D场景,并在不同视角下进行新颖的视图合成。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
Visual Prompt Tuning是一种通过使用提示调整技术来提高视觉模型性能的方法。该方法可以有效地应用于多种视觉任务,旨在通过对现有模型进行微调,最大限度地减少参数调整,同时增强模型的表现。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。
CLIP(对比语言-图像预训练)是一种神经网络,训练于各种(图像,文本)对之间。它可以通过自然语言指示,在不直接优化任务的情况下,预测给定图像最相关的文本片段,类似于 GPT-2 和 GPT-3 的零样本能力。CLIP 是一个多模态 AI 模型,专注于图像和文本的联合理解,广泛应用于图像检索和内容生成任务。它由文本编码器和图像编码器组成,旨在将文本和图像的输出向量在语义空间中拉近。
AI-ContentCraft是一款多功能的内容创作助手,能用AI快速生成故事、播客脚本和多媒体内容,让创作者轻松搞定创意内容。
一个强大的Blender插件,利用扩散模型实现自动化纹理生成。该插件能够直接在Blender内为3D模型生成高质量的纹理,同时支持局部重绘、LoRA模型和IP-Adapter的应用。通过深度ControlNet技术,确保生成的纹理与3D几何特征相符,且支持多纹理着色和UV投影等高级功能,极大地提升了3D创作的效率和质量。
C2FViT是一个用于医学图像配准的项目,采用粗到细的注册方法,利用变换器架构提高图像对齐的精度,适用于医疗应用中的图像处理。
LLM-Geo是一个自动地理信息系统(GIS),利用大型语言模型(LLM)进行空间问题的自动数据收集、分析和可视化。该项目采用GPT-4 API,实现了在Python环境中自动生成、自组织、自验证、自执行和自增长的自主GIS,旨在提高地理数据处理的效率和准确性。
Stable Diffusion XL 是 StabilityAI 推出的基于扩散模型架构的高效开源图像生成模型,支持生成高质量、细节丰富的图像,广泛应用于艺术创作、设计和内容生成领域。
无需任何额外的微调或调整,使用文本到图像扩散模型直接生成你想要的图像,只需一张面部照片。
该项目是一个生成AI对话热力图的脚本,可以帮助用户查看与AI对话的频率,提供了便捷的可视化方式,支持多种数据输入,便于用户理解和分析对话行为。