所有AI工具AI开发框架

WebWalker官网 – 测试LLM网页浏览能力的基准工具

WebWalker 是一个用于测试大型语言模型(LLM)网页浏览能力的基准工具。它通过 WebWalkerQA 数据集和 WebWalker 多智能体框架,支持 LLM 在网页导航和信息检索任务中的测试。该工...

标签:

AI交流(进群备注:WebWalker)

WebWalker 是一个用于测试大型语言模型(LLM)网页浏览能力的基准工具。它通过 WebWalkerQA 数据集和 WebWalker 多智能体框架,支持 LLM 在网页导航和信息检索任务中的测试。该工具涵盖 680 个查询,涉及 1373 个网页,支持中英文,适合多种真实场景。它还提供在线演示和本地运行选项,方便研究者使用。

WebWalker的特点:

  • 1. WebWalkerQA 数据集:包含 680 个查询,覆盖 1373 个网页,涉及会议、组织、教育和游戏四个真实场景,支持中英文。
  • 2. WebWalker 框架:一个多智能体框架,模仿人类通过探索-批评范式进行网页导航。
  • 3. 支持中英文双语,适合多种真实场景。
  • 4. 提供在线演示和本地运行选项,方便研究者使用。

WebWalker的功能:

  • 1. 在 Modelscope 或 Huggingface 尝试在线演示。
  • 2. 按照提供的说明本地安装和运行项目。
  • 3. 通过 Huggingface 数据集使用 WebWalkerQA 数据集。
  • 4. 用于基准测试 LLM 的网页遍历能力,并提供工具评估这些任务的性能。

相关导航

暂无评论

暂无评论...