AgentEvals 提供了一站式解决方案,专注于代理轨迹评估,支持多种评估工具,如代理轨迹和图轨迹评估。它兼容 Python 和 TypeScript,适应不同的开发环境,并与 LangSmith 集成,便于实验跟踪和结果管理。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型