该论文由宋涛李和郝唐撰写,发布于2024年11月26日,提供了多模态对齐和融合在机器学习中的最新进展的全面回顾。论文涵盖了文本、图像、音频和视频等多种数据类型,探讨了多模态集成如何通过利用不同模态的互补信息来提高模型准确性和适用性,尤其是在数据有限的情况下促进知识转移。论文系统地分类和分析了现有的对齐和融合技术,基于200多篇相关论文,并解决了多模态数据集成的挑战,如对齐问题、噪声韧性和特征表示差异。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型