WebWalker 是一个用于测试大型语言模型(LLM)网页浏览能力的基准工具。它通过 WebWalkerQA 数据集和 WebWalker 多智能体框架,支持 LLM 在网页导航和信息检索任务中的测试。该工具涵盖 680 个查询,涉及 1373 个网页,支持中英文,适合多种真实场景。它还提供在线演示和本地运行选项,方便研究者使用。