该项目提出了一种通过混合潜在Token(由VQ-VAE生成)和文本Token来优化语言模型推理过程的方法。传统链式思维(CoT)数据因冗长的文本Token导致计算资源消耗大,而该方法通过抽象初始推理步骤为潜在Token,显著缩短推理痕迹长度(平均减少17%),同时在数学和逻辑推理任务中性能优于基线模型(如Math、GSM8K等数据集)。支持从头训练模型或微调现有LLMs,适用于数学推理、迷宫问题求解等场景。
Flux 是字节跳动开源的 MoE 架构优化技术「COMET」,旨在通过细粒度的计算与通信重叠来提高混合专家模型(MoE)的执行效率。该技术显著提升了模型训练的速度,降低了计算成本,并已在万卡集群中实战应用,累计节省了数百万 GPU 小时。Flux 完美兼容 DeepSeek DualPipe 方案,支持多种硬件环境稳定运行,且无需框架重构,即插即用。