ODRL是一个针对非动态强化学习的基准测试平台,旨在评估强化学习算法在不同环境下的表现。通过建立标准测试环境,研究人员可以有效地比较和分析不同的强化学习算法的性能。
Banana-lyzer是一个开源的AI代理评估框架,专为Web任务而设计,支持多种场景和任务,提供性能评估指标,并允许与现有AI代理的轻松集成,便于不同代理之间的比较分析。
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集,提供了工业优先的评估基准和专用的数据集,以支持多种评估方法,适用于大规模语言模型的性能测试。
汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型