Kimi k1.5:多模态AI的新里程碑
在人工智能领域,多模态模型的研发一直是技术突破的核心方向。近日,国内AI公司月之暗面发布了其最新的多模态思考模型Kimi k1.5,不仅在数学、代码和多模态推理能力上全面对标OpenAI的满血版o1模型,更以其独特的技术创新为多模态AI的发展注入了新的活力。
技术亮点:long2short方法与强化学习
Kimi k1.5的最大创新在于其提出的long2short思维链方法。该方法通过将长CoT模型的推理先验转移到短CoT模型中,显著提升了模型在有限测试Token预算下的性能。具体实现包括:
-
模型合并:将长CoT模型与短CoT模型结合,提高Token使用效率。
-
最短筛选采样:对同一问题采样多次,选择最短的正确响应进行监督微调。
-
DPO优化:利用长CoT模型生成多个响应样本,选择最短的正确解作为正样本,较长的响应作为负样本。
-
强化学习训练:在标准强化学习训练后,进行单独的long2short强化学习训练,进一步优化性能与Token效率。
此外,Kimi团队还设计了部分回滚技术,通过限制输出Token预算,显著降低了计算开销,同时保持快速迭代时间。
多模态能力的全面提升
Kimi k1.5在多模态基准测试中表现优异,主要测试包括:
-
文本基准:MMLU、IF-Eval、CLUEWSC、C-EVAL
-
推理基准:HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024、MATH500
-
视觉基准:MMMU、MATH-Vision、MathVista
评估结果显示,Kimi k1.5在长上下文推理、理解和信息综合能力方面显著提升,短CoT模型在多项任务中表现与领先的开源和专有模型相当或更优。
训练与推理的混合部署
Kimi团队还提出了一种混合部署策略,利用Kubernetes的Sidecar容器共享GPU资源,将训练和推理任务协同部署在同一Pod中。这一策略不仅提高了资源利用率,还避免了训练节点因等待推理节点而处于空闲状态。
总结与展望
Kimi k1.5的发布标志着月之暗面在多模态推理技术路线上迈出了坚实的一步。从最初的数学推理模型K0-math,到视觉思考模型K1,再到如今的k1.5,月之暗面不断刷新SOTA,展现了强大的技术实力和创新精神。
Kimi k1.5的成功不仅是月之暗面团队的胜利,也是中国人工智能领域的一次重要突破。未来,我们期待Kimi能够带来更多令人惊艳的成果,为人类社会的发展贡献更大的力量。