t5-experiments开源项目 – 探索T5模型的长序列处理与内存效率
t5-experiments是一个专注于T5模型实验的项目,特别是探索Transformer模型的扩展技术和内存效率。该项目旨在处理极长序列(高达2,048,000个token),并采用RMT(Recurrent Memory Transformer)方法增强内存保留能力。尽管处理大量token序列,项目仍保持紧凑的内存大小(3.6GB),并支持高效推理,最多可处理4096个内存段。项目突破了以往Transformer模型的限制(如CoLT5的64K token和GPT-4的32K token)。