CLIP(对比语言-图像预训练)是一种神经网络,训练于各种(图像,文本)对之间。它可以通过自然语言指示,在不直接优化任务的情况下,预测给定图像最相关的文本片段,类似于 GPT-2 和 GPT-3 的零样本能力。CLIP 是一个多模态 AI 模型,专注于图像和文本的联合理解,广泛应用于图像检索和内容生成任务。它由文本编码器和图像编码器组成,旨在将文本和图像的输出向量在语义空间中拉近。
Qwen-VL是一个支持多种模态输入的高性能项目,旨在提供图像理解和生成能力,并具备灵活的API接口,适合多种应用场景。
第一个无自然语言的纯视觉大模型,证明了纯视觉模型本身也是可扩展的。该模型支持多种数据形式,通过上下文学习来理解并执行下游任务,具有很强的可扩展性。
开源深度学习平台
Anyscale是一个统一的计算平台,旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型(LLMs)。
Rerun 是一个用于记录计算机视觉和机器人数据的 SDK,并配有可视化工具,可以随时间探索这些数据。它允许用户以最小的代码调试和理解系统的内部状态和数据。开发者可以将数据记录到 Rerun SDK,系统会自动进行可视化处理。Rerun 支持来自多个进程的实时数据流,并可回放录制的数据。Rerun Viewer 根据记录的数据创建可配置的可视化效果,用户可以随时回溯和前进时间。
Pipeless 是一个开源计算机视觉框架,用于创建和部署应用程序,无需构建和维护多媒体管道的复杂性。它提供了创建和部署高效计算机视觉应用程序所需的一切,这些应用程序只需几分钟即可实时运行。