Transfusion是一种可以生成文本和图像的训练模型的统一方法,结合了语言建模和扩散的优势。它通过结合下一个Token预测与扩散,在混合模态序列上训练单个Transformer,提供了优于传统方法的扩展性,支持高达7B参数和2T多模态标记。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
该框架将3D感知集成到预训练的2D扩散模型中,增强了得分蒸馏的鲁棒性和3D一致性,旨在解决2D扩散模型无法捕捉3D一致性的问题。
Magnetron是自制的迷你版PyTorch,从零开始构建,旨在提供一个简单而强大的深度学习框架,适合研究和生产使用。它的设计初衷是帮助用户更好地理解深度学习的基本原理,并在此基础上进行模型的构建与训练。
Graphium是一个专注于图表示学习的深度学习库,特别用于处理现实世界中的化学任务。它具备最先进的图神经网络架构,提供可扩展的API,并支持丰富的分子特征化功能,能够有效应对复杂的化学问题。
ImageBind-LoRA是一个非官方的ImageBind微调工具,利用LoRA技术实现高效的多模态嵌入学习。该项目旨在简化模型训练流程,并提供强大的可扩展性,适用于不同的数据集。
大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量。