Sa2VA是由字节跳动、北京大学等机构的研究者提出的一个多模态模型,结合了SAM-2和LLaVA的优势,能够精准分割视频中的物体并理解视频内容,同时支持自然语言指令输入。该模型通过引入特殊的[SEG] Token,实现了SAM-2与LLaVA的连接,使其在视频理解与物体分割方面表现出色。