众包基准测试

LM Arena 是一个开放平台，旨在通过人类偏好评估 AI，采用众包基准测试比较大型语言模型（LLMs）。它允许用户免费测试和比较各种 AI 语言模型，用户可以选择两个模型输入提示，查看两者的响应，投票选择表现更好的模型，并通过这些投票更新排行榜。该平台使用 Elo 评分系统，类似于国际象棋排名，强调模型在真实场景中的实用性。

AI模型比较Elo评分系统人类偏好评估众包基准测试

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。