语言模型性能对比

Agent Leaderboard是一个专门为AI Agent任务设计的语言模型排行榜，旨在精准评估不同语言模型在复杂场景下的工具使用能力。该项目涵盖了21个领域和390个API交互场景，采用Tool Selection Quality（TSQ）作为核心指标，量化工具选择质量，并评估了12种私有模型和5种开源模型。

AI Agent排行榜工具使用能力评估模型优化支持语言模型性能对比

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。