Kimi-VL开源项目 – 高效开源多模态视觉语言模型
Kimi-VL是MoonshotAI开发的开源专家混合(MoE)架构视觉语言模型,仅激活2.8B参数即可实现高级多模态推理能力。该模型具有128K超长上下文处理窗口,配备原生分辨率视觉编码器MoonViT,在长视频理解(64.5@LongVideoBench)、文档解析(35.1@MMLongBench-Doc)、高精度OCR(83.2@InfoVQA)等任务表现优异。提供标准版(Kimi-VL-A3B-Instruct)和强化思维链推理版(Kimi-VL-A3B-Thinking)两个变体,后者在数学推理(61.7@MMMU)和复杂视觉问题求解(71.3@MathVista)方面达到70B参数模型的水平。