WorldRWKV是一个基于纯RWKV7架构的模型,旨在实现任意模态的训练和推理,使模型能够轻松理解多种输入形式。它支持多种模态的输入(如视觉、语音)并输出文本,提供端到端的跨模态推理能力,性能卓越,例如在视觉问答任务中准确率高达78.30%。