DeepEval 是一个用户友好的开源 LLM 评估框架,专门用于评估和测试大型语言模型系统。它提供了一系列开箱即用的 LLM 评估指标,并支持与 Confident AI 的集成,用于持续评估、比较超参数和调试评估结果。DeepEval 可以用于 RAG 管道、聊天机器人、AI 代理等多种 LLM 应用场景,帮助用户优化模型、提示和架构,防止提示漂移,并自信地从 OpenAI 过渡到自托管模型。