跨模态学习

广义Kullback-Leibler（GKL）散度损失论文 – 优化KL散度的机器学习损失函数

该项目是Kullback-Leibler（KL）散度的扩展版本，通过数学证明将其解耦为加权均方误差损失和带软标签的交叉熵损失。主要解决了传统KL损失在知识蒸馏中的不对称优化问题，引入类别全局信息减少样本偏差，显著提升了模型训练的稳定性和对抗鲁棒性。在RobustBench排行榜上达到最先进水平，并在CIFAR-10/100、ImageNet等数据集的知识蒸馏任务中表现优异。

对抗训练鲁棒性机器学习损失函数知识蒸馏优化跨模态学习

Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation – “Facilitating animation and film production”-从声音生成3D面部模型

Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation – “Facilitating animation and film production”-从声音生成3D面部模型

该系统通过声音输入生成跨模态的3D面部模型，支持多种语音输入。

AI生成3D面部模型对话系统机器人应用语义分割

Video-LLaVA开源项目 – 多模态图像视频识别项目

Video-LLaVA开源项目 – 多模态图像视频识别项目

北京大学的多模态图像视频识别项目，旨在将视觉信息融入语言特征空间，以推动大型视觉-语言模型的发展。

图像问答多模态图像视频识别大型视觉-语言模型视频理解与生成

HunyuanVideo开源项目 – 腾讯开源的混元模型视频处理工具

HunyuanVideo开源项目 – 腾讯开源的混元模型视频处理工具

HunyuanVideo是腾讯开源的混元模型视频版本，旨在提供高效的视频处理和分析能力。该项目支持多种视频处理任务，并能够实时分析视频内容，适用于各种输入和输出格式。

实时视频分析视频内容自动标注视频处理工具视频情感分析

Imagen官网 – 文本生成图像的高保真模型

Imagen是一个文本到图像的扩散模型，具有极高的真实感，利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数，并在样本质量和图像-文本对齐方面被人类评审者优先选择。

AI图像生成模型DrawBench基准测试文本生成图像高保真图像生成

Compositional Generalization in NLP开源项目 – 研究自然语言处理中的组合泛化

Compositional Generalization in NLP开源项目 – 研究自然语言处理中的组合泛化

该项目旨在通过研究自然语言处理中的组合泛化，提供有效的模型和方法，以提升NLP任务的表现。

NLP模型评估组合泛化研究聊天机器人集成

MiniGPT4-Video-专为视频理解而设计的多模态大模型

MiniGPT4-Video是一个专为视频理解而设计的多模态大模型，能够同时处理时态视觉数据和文本数据，善于理解视频的复杂性，适用于多种视频内容的分析和处理任务。

多模态大模型视频内容分析视频宣传语生成视频标题生成

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

偏见分析基准测试工具微调语言模型语言模型评估工具

Graph Language Models开源项目 – 基于图结构的语言表示研究

Graph Language Models开源项目 – 基于图结构的语言表示研究

一个专注于图语言模型的研究项目，旨在利用图结构来提升语言表示的效果，并整合多种基于图的技术于自然语言处理（NLP）领域。

图结构图语言模型自然语言处理语言表示

Glue Factory开源项目 – CVG的深度学习视觉特征库

Glue Factory开源项目 – CVG的深度学习视觉特征库

Glue Factory是CVG开发的一个库，用于训练和评估深度神经网络，专注于提取和匹配局部视觉特征。

模型训练与评估深度学习视觉特征库特征提取与匹配计算机视觉

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

LLM性能比较多轮对话能力评估语言模型评估工具

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3