KIM(知识引导模型)是一个创新的机器学习项目,旨在通过结合大型语言模型(LLM)和通用领域知识来增强行为克隆的性能。行为克隆是一种通过观察专家行为来学习决策策略的技术,而KIM通过引入结构化知识,显著提高了样本效率和鲁棒性,使其能够在少量演示数据下表现良好。KIM利用LLM生成策略结构,并通过少量演示数据进行微调,特别适用于需要专家演示的顺序决策任务,如月球着陆器和赛车任务。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型