VGSE是一个用于零样本学习的工具,利用视觉基础的语义嵌入技术,能够在没有标记示例的情况下进行图像分类和视觉数据的语义理解。
这是一个强大的Stable Diffusion Web UI扩展,利用Dreambooth技术提升图像生成能力,允许用户使用个性化图像训练自定义模型,并提供易于使用的界面来管理训练参数。
一个致力于医学应用的视觉语言模型集合,旨在解决通用模型在医学领域的挑战,并与专家分割和分类模型集成。
一种处理噪声标签的少样本学习方法,旨在提高模型在标签不准确情况下的学习能力。该方法利用少量标记样本进行训练,具备对标签噪声的鲁棒性,适用于图像分类等任务。
基于LLaMA 3.1的增强视觉指令微调工具,为多模态大型语言模型提供性能提升,公开发布8B参数模型的检查点。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型