利用医学图片训练开源CLIP模型,以实现医学图像检索,支持多种图像格式和高效的图像与文本匹配,具有强大的可扩展性,适用于各种医学应用场景。
利用视觉语言模型(VLMs)为图片自动生成描述的工具,具备自动检测并解决重复序列标题失败的功能,支持多种脚本和模型。该工具旨在提升图像描述的质量与多样性,适用于多种应用场景,如社交媒体、内容创作等。
历史文献修复助手:利用人工智能技术预测受损历史文献的原始外观,帮助修复和保护珍贵的历史文档资料
HyperNeRF是一个支持高维表示和处理拓扑变化的神经辐射场的项目,旨在提高3D重建和场景渲染的效果。
一款批量为图片生成描述的实用工具,使用Joytag Caption技术,帮助用户快速给图片添加文字说明。该工具支持多张图片的批量处理,并能够生成高质量的描述,易于集成到现有工作流程中,提供多种自定义选项以满足不同需求。
LLaMA-VID 是一个用于理解长视频的多模态大模型,通过双令牌策略显著减少了长视频的过载,同时保留了关键信息。
CheXagent是一个基于视觉和语言的基础模型,专注于胸部X光片的解读,旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct,设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器,同时连接视觉和语言模态的网络,提供了新的评估基准CheXbench用于系统评估。
Gauss是一款基于SwiftUI构建的原生macOS应用,利用ml-stable-diffusion CoreML模型实现图像生成,支持苹果硬件加速,提供用户友好的操作流程。
用于在 ComfyUI 中运行 X-Portrait 的包装器,用于将视频中的人脸动画化,使其遵循参考图像的风格。该项目实现了视频人脸的动态效果与图像风格的匹配,提供了良好的用户体验,支持多种视频格式,方便用户在创作中进行个性化调整。
BoundaryFormer是一个利用掩码监督的多边界变换器,专注于实例分割任务。该项目通过多边形边界的学习,提升了实例分割的精度和效率。
Residual Attention是一种简单但有效的多标签识别方法,利用残差注意机制,能够在多标签任务中表现出色。
一种通过注意力重排列实现零样式迁移的方法,无需针对每种样式的训练数据。
MUMU是一个利用多模态图像生成技术,通过交错文本和图像提示生成图像的模型。它结合了视觉编码器和语言模型,使用扩散模型作为图像解码器,基于(标题,图像)数据集构建,能够将不同图像的输入组合成连贯的输出,并支持风格转换和角色一致性任务。
MangaNinjia 是一款自动为漫画线稿上色的工具,能够精准地根据参考图进行上色,并且支持通过点控制实现更复杂的上色任务,有望显著加速动漫行业的上色流程。
Flow Matching是一个基于PyTorch的生成模型实现,利用流匹配技术将简单分布转换为复杂分布,旨在生成高质量的数据样本,广泛应用于图像生成、数据增强等多种生成任务。
VideoReTalking是一种新系统,能够根据输入的音频编辑现实世界中头部说话视频的脸部,自动生成高质量且口型同步的输出视频。系统使用学习方法处理所有步骤,确保视频中人物的嘴型与音频完美对齐,并根据声音变化表情。
基于YOLOv7的车牌检测与识别,包括中文车牌识别,支持双层车牌和13种中文车牌类型。
一个可用于生成个性化诺贝尔奖项图片的开源 AI 工具,利用 ComfyUI 进行图像生成,并结合 HTML 模板来展示图片上的文本。
DALLE-reproduction项目旨在重现OpenAI的DALLE模型,能够根据文本描述生成高质量图像,支持多种文本输入格式,并提供可扩展的模型架构和可调参数,以优化生成效果。该项目实现了多种训练和推理策略,适用于多种应用场景。
通过SDXL Lightning 和 Controlnet 实现即时控制人物姿势的代码,允许用户灵活调整和管理虚拟人物的姿势,提供高效的实时响应。该项目结合了先进的深度学习技术,使得姿势控制更加精准和便捷。
Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目,仅通过音频生成生动的运动细节,支持多种视觉和音频风格,消除手动指定空间运动模板的需求,生成运动自适应的合成结果。
MiniCPM-o-2_6是Openbmb发布的一款新的混合模型,结合了多个先进模型,能够处理视觉、语音、视频流和OCR等多种任务,具有强大的功能和灵活的应用场景。
CAT3D 是一个强大的工具,可以从任意数量的真实或生成的图像创建 3D 场景。其处理时间极短,仅需一分钟,能够生成高度一致的新视角场景,并支持实时渲染的可交互 3D 表示。CAT3D 在创建 3D 场景方面优于传统的单图像和少视图方法,适用于多种应用领域。
Kandinsky-3是基于Kandinsky2-x模型族构建的开源文本到图像扩散模型,旨在提供高质量的图像生成和多样化的风格选择,支持用户自定义输入,快速生成,并易于扩展。
ColPali 是一个基于视觉语言模型的文档检索工具,旨在通过图像和文本的结合,提供高效的检索能力。它不再依赖传统的文本提取方法,而是利用具有后期交互机制的微调视觉模型,能够处理复杂文档并显著提升检索效果。该模型体积小且性能优于常规的基于文本和文本图像嵌入的方法,支持多模式索引和检索,适用于各种视觉丰富的文档。
DiffGS是一个功能性高斯喷溅扩散项目,旨在通过扩散模型生成高质量的图像。其核心技术围绕高斯喷溅的数学原理,能够在图像生成领域提供创新的解决方案。
通过大型语言模型增强对文本到图像扩散模型的快速理解,提升text-to-image领域对于Prompt的理解,避免图像和文本要求不一致的情况。
通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音,为感知体验的神经表征提供了见解。
SynCHMR 是一种协同方法,通过结合相机轨迹和人体重建,解决深度、比例和动态模糊性问题。它使用人类感知公制 SLAM 进行重建,并学习场景感知的 SMPL 降噪器,以增强时空一致性和动态场景约束。
通过执行 OpenCLIP 模型的知识蒸馏,用零标记数据创建自定义图像分类模型。该项目利用现有的 OpenCLIP 模型,能够在没有标记数据的情况下进行图像分类,支持高效的模型训练和推理,适合各种自定义应用场景。