标签:Dual Chunk Attention

通义Qwen2.5-1M模型:Dual Chunk Attention机制助力长文本处理新突破

阿里云通义最新发布的Qwen2.5-1M模型,通过创新的Dual Chunk Attention机制,成功支持100万Tokens的上下文处理,显著提升了长文本任务的效率和性能。这一技术...