OpenAI o1是OpenAI发布的新型推理模型系列,包含o1-preview和o1-mini两个版本,专注于解决科学、编码和数学领域的复杂问题。该模型通过延长思考时间提升推理能力,在物理、化学等学科基准测试中达到博士生水平,并展现出较高的安全性和成本效益。目前提供分级访问权限,未来计划扩展功能覆盖更多用户场景。
HAL Harness是由普林斯顿大学SAgE团队开发的AI Agent评估框架和排行榜,旨在解决评估过程中的复杂性和效率问题。它支持多种基准测试(如SWE-bench、USACO等),可在本地或云端运行,并通过并行化提高效率。与Weave集成实现自动化的成本跟踪和日志记录,提供Pareto前沿可视化等功能。