FlowSep是一个基于语言查询的声音分离模型,通过语言描述分离音频中的特定声音,使音频处理变得更加智能。该项目利用Rectified Flow Matching技术,实现从噪声到目标声音的高效生成,并在多个基准测试中超越现有最佳模型。FlowSep提供简单易用的推理代码,支持自定义音频和文本查询,适用于多种音频处理场景。