Large World Model (LWM) 是一个通用的大环境多模态自回归模型,专注于处理长视频和书籍数据。它使用RingAttention技术进行训练,能够处理多达100万token的上下文,支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集,解决了现有语言模型在处理复杂、长任务时的不足,尤其在文本图像生成、文本视频生成等任务中表现出色。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型