NoLA是一种基于大型语言模型和预训练视觉模型的无标签图像分类方法,通过利用这些先进技术提升图像分类的准确性,同时无需大量标注数据,显著降低了成本。该方法特别适合资源有限或数据标注困难的场景,如新领域探索或小数据集分类。NoLA通过生成描述性特征并与视觉模型(如CLIP)结合,实现了高准确性和解释性,同时具备分布鲁棒性和新概念适应能力。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型