Baichuan-Omni-1.5是一个支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。它在视觉语言、语音能力和医学图像理解方面表现出色,适用于多种多模态任务。
MnnLlmApp是一个基于MNN-LLM框架的Android手机应用,支持各类大型语言模型(LLM)在手机上离线运行,能够处理多模态任务,包括文本生成、图像生成和音频转文本等。该应用在安卓平台上具有优秀的CPU性能,预填充速度相较于其他框架大幅提升,支持多种模型,完全在设备本地运行,确保数据隐私和处理效率。
PaLI-3是一个相对更小、更快且更强大的视觉语言模型,其性能表现优于大小为其10倍的类似模型,专注于多模态任务的高效处理。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Transfusion是一种可以生成文本和图像的训练模型的统一方法,结合了语言建模和扩散的优势。它通过结合下一个Token预测与扩散,在混合模态序列上训练单个Transformer,提供了优于传统方法的扩展性,支持高达7B参数和2T多模态标记。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
该框架将3D感知集成到预训练的2D扩散模型中,增强了得分蒸馏的鲁棒性和3D一致性,旨在解决2D扩散模型无法捕捉3D一致性的问题。
Magnetron是自制的迷你版PyTorch,从零开始构建,旨在提供一个简单而强大的深度学习框架,适合研究和生产使用。它的设计初衷是帮助用户更好地理解深度学习的基本原理,并在此基础上进行模型的构建与训练。
Graphium是一个专注于图表示学习的深度学习库,特别用于处理现实世界中的化学任务。它具备最先进的图神经网络架构,提供可扩展的API,并支持丰富的分子特征化功能,能够有效应对复杂的化学问题。
ImageBind-LoRA是一个非官方的ImageBind微调工具,利用LoRA技术实现高效的多模态嵌入学习。该项目旨在简化模型训练流程,并提供强大的可扩展性,适用于不同的数据集。
大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量。