LM Arena 是一个开放平台,旨在通过人类偏好评估 AI,采用众包基准测试比较大型语言模型(LLMs)。它允许用户免费测试和比较各种 AI 语言模型,用户可以选择两个模型输入提示,查看两者的响应,投票选择表现更好的模型,并通过这些投票更新排行榜。该平台使用 Elo 评分系统,类似于国际象棋排名,强调模型在真实场景中的实用性。