Embedding Propagation 是一种旨在为小样本分类创建更平滑流形的方法,通过改进嵌入传播技术来增强模型在有限标注数据下的泛化能力。它适用于多种小样本分类框架,能够有效提升模型在低数据环境下的表现,并为下游任务提供更优质的特征嵌入。
blip-caption是一个基于Salesforce BLIP模型的命令行工具,专门用于生成图像描述。它通过命令行界面提供了一种简单且高效的方式来处理图像描述生成任务,支持多种图像格式,并能够快速生成高质量的图像描述。该工具易于集成到各种工作流中,适用于单张图像描述生成、批量处理以及自动化脚本集成等多种场景。
PE3R(Perception-Efficient 3D Reconstruction)是一个创新项目,能够仅通过2-3张照片生成交互式3D场景。该项目支持基于文本的虚拟世界探索,极大简化了3D重建的流程,适用于多种场景和应用。
Timm是一个开源的计算机视觉库,专注于提供高效且易用的深度学习模型,涵盖了图像分类、目标检测、语义分割等任务,支持多种预训练的模型,广泛应用于各类视觉任务。
pytesseract是一个Python库,封装了Google的Tesseract OCR引擎,使开发者能够在Python中轻松实现光学字符识别(OCR)功能。它支持多种图像格式,允许配置Tesseract参数以定制OCR过程,并可以批量处理多张图像。此外,pytesseract与Python的PIL/Pillow等图像处理库无缝集成,便于在OCR前对图像进行预处理。
Baichuan是一个开源的多模态AI平台,专为多模态AI开发设计。它提供整合文本、图像等多模态数据的工具,支持高效的模型训练与推理,适用于复杂场景下的智能应用。平台内置多源数据预处理管道,兼容主流深度学习框架,帮助开发者快速构建多模态AI系统。
Image2Paragraph是一个结合了ChatGPT、BLIP2、OFA、GRIT、Segment Anything和ControlNet技术的项目,旨在将图像转化为独特的段落描述。通过多种先进技术的集成,该项目能够从图像中提取丰富的特征,并生成详细且独特的文本描述,适用于多种AI应用和计算机视觉任务。
M2RAG通过多模态检索增强和指令调优来提升多模态RAG模型的性能,特别是在处理图像和文本结合的多模态数据时,有效减少幻觉,生成更准确的回答。项目通过MM-RAIT训练方法,优化模型在执行检索、理解和回答等RAG流程中各个阶段的表现,显著提高了模型的准确性。经过训练后,MiniCPM-V和Qwen2-VL模型性能比普通RAG方法平均提高了27%和34%。
该项目结合了Nanodet和YoloV8 Pose模型,利用OpenVINO在Intel硬件上实现优化的高性能仪表和计量器读数。项目包含PaddlePaddle模型文件(model.pdmodel和model.pdiparams),专为在各种环境中读取仪表和计量器而设计,提供高效可靠的仪表读数解决方案。
ClothingTransfer-NCNN 是一个基于ncnn框架的虚拟试衣与服装迁移项目,集成了CT-Net、OpenPose、LIP_JPPNet和DensePose等技术。CT-Net用于服装迁移,OpenPose用于人体姿态估计,LIP_JPPNet用于人体解析,DensePose用于详细的人体表面映射。通过ncnn优化,实现了高效的推理,适用于电子商务、时尚设计、虚拟现实和增强现实等多个领域。
该项目提供了一套用于下载和加载脑部肿瘤MRI数据集的Python工具,包含2D切片、肿瘤掩码和肿瘤分类数据,适用于医学影像分析、机器学习模型训练与测试、脑部肿瘤检测算法的研究与开发、医学影像数据集的预处理以及教育和学术研究。
Paints-UNDO 是一个多功能的AI项目,能够伪造从草稿到成图的完整延时绘画过程,并以视频格式输出。同时,它也能逆向工作,分解图像并展示艺术家可能采取的创作步骤。该项目基于videocrafter2生成视频模型的微调,支持多种风格如二次元、写实风格以及真实照片的伪造和分解。
Text-Guided-Image-Colorization 是一个基于 Stable Diffusion 和 BLIP 模型的交互式图像上色工具,允许用户为图像中的不同对象指定颜色,使上色过程更加个性化和富有创意。该工具结合了高质量的图像生成技术和文本引导功能,提供了一个用户友好的界面,使用户能够轻松地实现个性化的图像上色。
gradio_image_annotator 是一个基于 Gradio 的图像标注组件,专门用于在图像上添加和编辑边框,适用于图像目标检测和标注场景。它提供了丰富的功能,帮助用户高效地进行图像标注和处理。
ViT Prisma是一个专门用于Vision Transformers(ViTs)的机制解释库,旨在帮助用户深入理解ViT模型的内部工作机制。它提供了一系列工具和方法,用于分析Transformer层和注意力机制,支持模型决策的可视化,并促进视觉任务中特征重要性的探索。
该项目是一个专为 MidJourney AI 设计的样式和关键字参考资源,旨在帮助用户更好地使用该 AI 工具生成高质量图像。它不仅提供了丰富的样式和关键字参考,还包括页面显示分辨率比较、图像权重等实用信息,帮助用户优化生成结果。
wasmVision是一个基于WebAssembly的计算机视觉处理引擎,提供高性能的视觉处理能力。它能够捕获摄像头、视频文件或流媒体的画面,并通过WebAssembly进行处理后输出。该项目支持使用Go、Rust、C语言开发处理器模块,并内置了多个现成的处理器,如人脸检测、图像模糊、神经风格迁移等,适用于多种视觉处理场景。
HZPROC是一个专为Torch设计的数据增强工具箱,支持仿射变换等多种数据增强技术。它易于集成到现有的Torch流程中,性能高效且优化,能够显著提升模型的泛化能力。
StableSR 是一个创新的超分辨率放大项目,专注于为模糊画面生成精致细节。该项目已集成到web-ui中,使用方便,且对低显存进行了优化,支持在小于12GB显存的环境中进行4K图像放大。官方演示效果令人惊叹,对模糊照片的修复效果几乎完美。
PhotoEva是一款无需注册即可使用的AI照片编辑应用,帮助用户轻松修复、增强和转换照片。通过先进的AI技术,用户可以去除背景、为黑白照片上色、创建表情符号头像等。应用操作简单,只需从App Store下载,上传照片后即可选择各种编辑功能进行即时处理。
tlnmf是一个在正交流形上实现拟牛顿算法的非负矩阵分解(NMF)工具,结合了变换学习以提升分解效果。该项目专为信号处理和数据分析领域设计,适用于多种矩阵分解任务。
GlowPro是一款个人AI护肤专家应用,提供专业的皮肤分析和定制护肤建议。用户可以通过扫描皮肤,获得个性化的护理建议,并随着时间的推移跟踪皮肤进展,从而高效地提升护肤体验。该应用适用于iOS和Android设备,旨在通过AI技术帮助用户轻松实现美容目标。
Intangible.ai 是一个基于浏览器的工具,旨在帮助团队轻松创建、协作和导出3D内容。它简化了电影场景、营销视觉和游戏世界的制作过程,且无需编程技能。用户可以通过直观的拖放功能和AI辅助快速上手。
Luma AI是一款基于神经辐射场(NeRF)技术的3D生成模型,能够从2D图像快速重建高质量的3D场景。该模型利用深度学习技术,对物体的光照、纹理和结构进行精准建模,实现逼真的3D视觉效果。广泛应用于游戏开发、虚拟现实(VR)、电商产品展示等领域。
YOLOE是一个实时高效的目标检测与分割模型,支持文本、视觉和无提示三种模式,具有卓越的零样本文本提示性能,训练成本降低3倍,推理速度快,YOLOE-v8-S在LVIS上的AP达到27.9,速度提升1.4倍。
该项目是基于TensorFlow框架实现的摄像头pix2pix图图转换工具,包含源代码和预训练模型。它支持实时摄像头输入,利用pix2pix模型进行图像转换,提供预训练模型以便快速使用,同时也支持自定义训练和模型优化。
SMPLX是一款基于深度学习的3D人体建模工具,能够生成高精度、可动画化的3D人物模型,适用于游戏开发、虚拟现实、动画制作等领域。它通过少量参数生成逼真的人体模型,支持精细的骨骼结构,具备面部表情和手部动作建模能力,大幅降低建模成本,提高制作效率。
YOLOv4 - ANPR/ALPR是一个基于YOLOv4、Tesseract和PaddleOCR的车牌识别项目,特别针对巴西车牌进行了优化。该项目结合了先进的深度学习模型和OCR技术,能够高效地检测和识别车牌文本,适用于多种场景。
OpenCV是一个开源的计算机视觉和机器学习软件库,提供了丰富的图像处理和计算机视觉算法。它支持多种编程语言和跨平台运行,适用于各类AI应用,包括图像处理、物体识别、视频分析等。OpenCV还针对不同硬件架构进行了优化,并支持深度学习模块,可加速矩阵乘法等操作。
mast3r-slam是一个基于Rerun的MASt3R-SLAM实现,旨在简化实时密集SLAM与3D重建的过程。通过使用Rerun进行可视化,用户可以直观地查看SLAM结果。项目通过Pixi简化了安装过程,用户可以在10分钟内完成复杂依赖的安装。此外,mast3r-slam支持NVIDIA GPU加速,显著提升了性能。