YingSound 是一个由巨人网络AI实验室、西工大ASLP实验室和浙江大学联合研发的多模态音效生成大模型。它能够为无声视频生成音效,并实现音画同步,特别适用于产品级视频的少样本设置。该模型基于DiT的Flow-Matching框架和多模态思维链(Multi-modal CoT)控制模块,实现跨模态对齐和精准控制,支持多种高精细度音效生成,适用于游戏、动漫、现实世界和AI生成视频等多种场景。