NoLA是由NOLA AI, Inc.开发的人工智能项目,专注于通过大型语言模型和预训练视觉模型实现无标签图像分类。该项目显著减少了对标注数据的依赖,利用类似CLIP的视觉-语言模型进行零样本学习,在提升分类准确性的同时降低企业成本。其技术核心结合了自然语言处理与计算机视觉,适用于数据稀缺场景,支持通过文本描述直接分类图像。
clip-interrogator 是一个结合了 OpenAI 的 CLIP 和 SalesForce 的 BLIP 技术的提示词优化工具,专注于通过图像生成匹配的文本提示词。它特别适用于与文本生成图像模型(如 Stable Diffusion)结合使用,帮助用户创建令人惊艳的艺术作品。该项目支持 API 调用和本地运行,具有快速预测、低成本、开源等特点。
CLIP Interrogator是一个利用CLIP模型分析图像并生成描述性文本或标签的工具。该工具能够帮助用户快速了解图像内容,适用于多种图像处理和分析场景。
CLIP(对比语言-图像预训练)是一种神经网络,训练于各种(图像,文本)对之间。它可以通过自然语言指示,在不直接优化任务的情况下,预测给定图像最相关的文本片段,类似于 GPT-2 和 GPT-3 的零样本能力。CLIP 是一个多模态 AI 模型,专注于图像和文本的联合理解,广泛应用于图像检索和内容生成任务。它由文本编码器和图像编码器组成,旨在将文本和图像的输出向量在语义空间中拉近。
imgfind是一个基于Rust、candle和CLIP构建的图像搜索工具,旨在提供高性能的图像检索体验。它利用深度学习技术和CLIP模型,支持多种图像格式,并具备用户友好的命令行界面,适用于各种图像搜索需求。
使用sam和clip模型完成图像任意指定类别的实例分割,支持指定多个类别。该项目结合了SAM模型的高效实例分割能力和CLIP模型的类别识别能力,提供了一个用户友好的接口,适合各种计算机视觉应用。
Pipeless 是一个开源计算机视觉框架,用于创建和部署应用程序,无需构建和维护多媒体管道的复杂性。它提供了创建和部署高效计算机视觉应用程序所需的一切,这些应用程序只需几分钟即可实时运行。
融合图像聊天、分割和生成/编辑的AI应用概念验证项目,基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
Midjourney API由The Next Leg提供,是一个非官方的API,允许用户与流行的AI图像生成工具Midjourney进行交互。用户只需注册订阅计划,获取API密钥,即可开始向Midjourney API发送请求,进行各种图像生成和创意项目。
YoutubeGPT利用OpenAI的Whisper、Embedding和Davinci模型,从YouTube视频中提取文本转录,分段嵌入,并允许用户通过聊天与视频内容进行交互,提供丰富的用户体验。
这是一个基于PyTorch的库,旨在加速在分布外(OOD)检测方面的研究,支持多种检测方法,并提供易用的API设计。该项目结合深度学习模型进行OOD任务,提供数据集和基准测试,且可与PyTorch深度学习框架无缝集成。
这是一个客户细分项目,探索结合大语言模型(LLM)和Kmeans算法的高级聚类技术及结果分析。
CAST项目旨在通过图像分割和识别技术,实现层次化的图像处理,提升对象识别的能力。
分享一个端到端的开源 OCR 模型,号称 OCR 2.0,支持场景文本、文档、乐谱、图表、数学公式等内容识别,拿到了 BLEU 0.972 高分。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
通过执行 OpenCLIP 模型的知识蒸馏,用零标记数据创建自定义图像分类模型。该项目利用现有的 OpenCLIP 模型,能够在没有标记数据的情况下进行图像分类,支持高效的模型训练和推理,适合各种自定义应用场景。