URO-Bench是一个全面的基准测试工具,专门用于评估端到端口语对话模型的性能。它首次涵盖了多语言、多轮对话以及副语言信息,包含了36个数据集,覆盖20种不同的任务。URO-Bench提供了一个简单的四步评估流程,能够快速得出模型的表现结果。