所有AI工具AI开发框架
WebWalker官网 – 测试LLM网页浏览能力的基准工具
WebWalker 是一个用于测试大型语言模型(LLM)网页浏览能力的基准工具。它通过 WebWalkerQA 数据集和 WebWalker 多智能体框架,支持 LLM 在网页导航和信息检索任务中的测试。该工...
标签:AI开发框架LLM网页浏览能力测试工具 WebWalkerQA数据集 多智能体框架AI交流(进群备注:WebWalker)

WebWalker 是一个用于测试大型语言模型(LLM)网页浏览能力的基准工具。它通过 WebWalkerQA 数据集和 WebWalker 多智能体框架,支持 LLM 在网页导航和信息检索任务中的测试。该工具涵盖 680 个查询,涉及 1373 个网页,支持中英文,适合多种真实场景。它还提供在线演示和本地运行选项,方便研究者使用。
WebWalker的特点:
- 1. WebWalkerQA 数据集:包含 680 个查询,覆盖 1373 个网页,涉及会议、组织、教育和游戏四个真实场景,支持中英文。
- 2. WebWalker 框架:一个多智能体框架,模仿人类通过探索-批评范式进行网页导航。
- 3. 支持中英文双语,适合多种真实场景。
- 4. 提供在线演示和本地运行选项,方便研究者使用。
WebWalker的功能:
- 1. 在 Modelscope 或 Huggingface 尝试在线演示。
- 2. 按照提供的说明本地安装和运行项目。
- 3. 通过 Huggingface 数据集使用 WebWalkerQA 数据集。
- 4. 用于基准测试 LLM 的网页遍历能力,并提供工具评估这些任务的性能。
相关导航

MindSearch开源项目 – 高性能开源AI搜索引擎框架
MindSearch 是一个开源的 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。它支持多智能体并行搜索和多种搜索引擎(如 DuckDuckGo、Bing、Brave、Google 等),并支持开源和闭源的大型语言模型(LLM),特别是在 InternLM2.5 系列上进行了专门优化。MindSearch 提供多种用户界面(如 React、Gradio、Streamlit 和本地调试),能够将用户查询分解为图中的子问题节点,动态构建图,提供更广泛、深层次的答案,支持深度知识探索,并提供思考路径、搜索关键词等完整内容,以提高回复的可信度和可用性。
暂无评论...