Agent Leaderboard是一个专门为AI Agent任务设计的语言模型排行榜,旨在精准评估不同语言模型在复杂场景下的工具使用能力。该项目涵盖了21个领域和390个API交互场景,采用Tool Selection Quality(TSQ)作为核心指标,量化工具选择质量,并评估了12种私有模型和5种开源模型。