该项目是Kullback-Leibler(KL)散度的扩展版本,通过数学证明将其解耦为加权均方误差损失和带软标签的交叉熵损失。 主要解决了传统KL损失在知识蒸馏中的不对称优化问题,引入类别全局信息减少样本偏差,显著提升了模型训练的稳定性和对抗鲁棒性。 在RobustBench排行榜上达到最先进水平,并在CIFAR-10/100、ImageNet等数据集的知识蒸馏任务中表现优异。
该系统通过声音输入生成跨模态的3D面部模型,支持多种语音输入。
北京大学的多模态图像视频识别项目,旨在将视觉信息融入语言特征空间,以推动大型视觉-语言模型的发展。
HunyuanVideo是腾讯开源的混元模型视频版本,旨在提供高效的视频处理和分析能力。该项目支持多种视频处理任务,并能够实时分析视频内容,适用于各种输入和输出格式。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
该项目旨在通过研究自然语言处理中的组合泛化,提供有效的模型和方法,以提升NLP任务的表现。
MiniGPT4-Video是一个专为视频理解而设计的多模态大模型,能够同时处理时态视觉数据和文本数据,善于理解视频的复杂性,适用于多种视频内容的分析和处理任务。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
一个专注于图语言模型的研究项目,旨在利用图结构来提升语言表示的效果,并整合多种基于图的技术于自然语言处理(NLP)领域。
Glue Factory是CVG开发的一个库,用于训练和评估深度神经网络,专注于提取和匹配局部视觉特征。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。