多模态任务

Baichuan-Omni-1.5开源项目 – 开源全模态基础模型

Baichuan-Omni-1.5开源项目 – 开源全模态基础模型

Baichuan-Omni-1.5是一个支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。它在视觉语言、语音能力和医学图像理解方面表现出色，适用于多种多模态任务。

Baichuan-Omni-1.5医学图像理解多模态任务开源全模态基础模型

MnnLlmApp-基于MNN开源项目 – LLM的安卓离线应用

MnnLlmApp-基于MNN开源项目 – LLM的安卓离线应用

MnnLlmApp是一个基于MNN-LLM框架的Android手机应用，支持各类大型语言模型（LLM）在手机上离线运行，能够处理多模态任务，包括文本生成、图像生成和音频转文本等。该应用在安卓平台上具有优秀的CPU性能，预填充速度相较于其他框架大幅提升，支持多种模型，完全在设备本地运行，确保数据隐私和处理效率。

MnnLlmApp多模态任务大型语言模型安卓离线应用

PaLI-3-小巧快速的强大视觉语言模型

PaLI-3是一个相对更小、更快且更强大的视觉语言模型，其性能表现优于大小为其10倍的类似模型，专注于多模态任务的高效处理。

多模态任务快速处理文本理解视觉语言模型

MM-LLM-多模态大型语言模型的最新进展

MM-LLM是一个增强现有大型语言模型的框架，支持多模态输入和输出，同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计，并回顾了在主流基准上的表现，旨在推动多模态任务的发展。

多模态任务多模态大型语言模型推理与决策模型架构

Transfusion-统一生成文本与图像的模型

Transfusion是一种可以生成文本和图像的训练模型的统一方法，结合了语言建模和扩散的优势。它通过结合下一个Token预测与扩散，在混合模态序列上训练单个Transformer，提供了优于传统方法的扩展性，支持高达7B参数和2T多模态标记。

AI模型架构研究多模态任务文本与图像生成模型

Transfusion-统一生成文本与图像的模型

Transfusion是一种可以生成文本和图像的训练模型的统一方法，结合了语言建模和扩散的优势。它通过结合下一个Token预测与扩散，在混合模态序列上训练单个Transformer，提供了优于传统方法的扩展性，支持高达7B参数和2T多模态标记。

AI模型架构研究多模态任务文本与图像生成模型

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。

GGML模型支持ONNX模型支持OpenAI兼容APIStreamlit UI

3DFuse开源项目 – 将3D感知集成到2D模型中

3DFuse开源项目 – 将3D感知集成到2D模型中

该框架将3D感知集成到预训练的2D扩散模型中，增强了得分蒸馏的鲁棒性和3D一致性，旨在解决2D扩散模型无法捕捉3D一致性的问题。

2D扩散模型3D感知集成得分蒸馏文本到3D生成

Magnetron开源项目 – 简单而强大的深度学习框架

Magnetron开源项目 – 简单而强大的深度学习框架

Magnetron是自制的迷你版PyTorch，从零开始构建，旨在提供一个简单而强大的深度学习框架，适合研究和生产使用。它的设计初衷是帮助用户更好地理解深度学习的基本原理，并在此基础上进行模型的构建与训练。

PyTorch学习工具模型构建与训练深度学习框架神经网络实验

Graphium开源项目 – 专注于图表示学习的深度学习库

Graphium开源项目 – 专注于图表示学习的深度学习库

Graphium是一个专注于图表示学习的深度学习库，特别用于处理现实世界中的化学任务。它具备最先进的图神经网络架构，提供可扩展的API，并支持丰富的分子特征化功能，能够有效应对复杂的化学问题。

分子特征化化学任务图神经网络图表示学习

ImageBind-LoRA开源项目 – 高效微调ImageBind模型

ImageBind-LoRA开源项目 – 高效微调ImageBind模型

ImageBind-LoRA是一个非官方的ImageBind微调工具，利用LoRA技术实现高效的多模态嵌入学习。该项目旨在简化模型训练流程，并提供强大的可扩展性，适用于不同的数据集。

ImageBind微调工具LoRA技术多模态嵌入学习模型训练流程简化

MMIE开源项目 – 针对视觉语言模型的多模态理解基准

MMIE开源项目 – 针对视觉语言模型的多模态理解基准

大型视觉语言模型的海量多模态交叉理解基准测试，旨在评估模型在不同领域中的理解与生成能力，支持自动化的可靠度量。

多模态理解基准模型性能测量视觉语言模型评估跨领域研究

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3