RWKV-LM是一种基于RNN的新架构,具有较低的计算复杂度(线性时间而非像Transformer那样的二次方时间)和恒定空间占用(无需KV缓存)。相比Transformer,它在上下文长度增加时内存使用呈线性增长,且计算需求更低。