AI交流(进群备注:Kimi-VL)

Kimi-VL是MoonshotAI开发的开源专家混合(MoE)架构视觉语言模型,仅激活2.8B参数即可实现高级多模态推理能力。该模型具有128K超长上下文处理窗口,配备原生分辨率视觉编码器MoonViT,在长视频理解(64.5@LongVideoBench)、文档解析(35.1@MMLongBench-Doc)、高精度OCR(83.2@InfoVQA)等任务表现优异。提供标准版(Kimi-VL-A3B-Instruct)和强化思维链推理版(Kimi-VL-A3B-Thinking)两个变体,后者在数学推理(61.7@MMMU)和复杂视觉问题求解(71.3@MathVista)方面达到70B参数模型的水平。
Kimi-VL的特点:
- 1. 混合专家架构(MoE)仅激活2.8B参数
- 2. 128K超长上下文处理能力
- 3. 原生分辨率视觉编码器MoonViT
- 4. 支持多图/视频/长文档多模态输入
- 5. 强化思维链推理版本(Kimi-VL-Thinking)
- 6. 在OCR/数学推理/代理任务达到SOTA
- 7. 支持vLLM高效部署
Kimi-VL的功能:
- 1. 多轮代理交互(如OSWorld环境)
- 2. 学术级图像/视频内容理解
- 3. 复杂数学问题视觉求解
- 4. 高精度光学字符识别(OCR)
- 5. 长视频关键信息提取
- 6. 多图像关联推理
- 7. 超高分辨率图像解析
相关导航
暂无评论...