SparK项目旨在通过稀疏和层次化的掩码建模,设计出适用于卷积网络的BERT模型,提升卷积网络在各种任务上的表现。
VIGC(Visual Instruction Generation and Correction)是一个用于生成和修正视觉指令的项目,旨在提高视觉任务的效率和准确性,适用于多种视觉任务。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
QA-CLIP是一个支持中文文本和图像的多模态理解的模型,具有最先进的性能和准确性,能够用于多种下游任务,如图像分类、文本生成等,且易于集成和使用。
DINOv2是Meta AI开发的最先进计算机视觉模型,具有自监督学习功能,无需大量标注数据即可训练。它能够直接从图像中学习特征,适用于图像分类、分割、检索和深度估计等多种任务。DINOv2的预训练版本已上线,与CLIP和OpenCLIP等模型竞争,并在众多任务中表现出色。