MIDI-3D是一个开源项目,专注于将单张图像转化为360度3D场景,利用先进的AI技术实现高保真度的3D场景生成。该项目通过智能分割输入图像,识别场景中的独立元素,并基于多实例扩散模型和注意力机制生成3D场景,具有强大的全局感知能力和细节表现力。在40秒内完成3D场景生成,且对不同风格的图像具有良好的泛化能力。此外,它支持对场景中的多个物体进行3D建模,避免了逐个生成再组合的复杂过程。