这是我在伯克利带的本科生Peter Tong去New York University师从Xie Saining和Yann LeCun后对目前所有主要大模型进行系统研究测试的最新工作。
这篇论文探讨了如何评估大模型的性能,包括评估的内容、地点和方法,并分析了当前评估方法的有效性和可信度。
LLM-Dojo是一个开源大模型学习场,提供简洁易读的代码框架,支持多种主流模型的训练和强化学习技术,旨在帮助AI爱好者和研究者进行深入的研究和开发。
JADE-Database是面向国内开源和国外商用大模型的Demo数据集,包含多种自然文本数据,覆盖多个问题类型,旨在用于大模型的靶向安全评测。
DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集,提供了工业优先的评估基准和专用的数据集,以支持多种评估方法,适用于大规模语言模型的性能测试。
收集和梳理垂直领域的开源大语言模型、数据集及评测基准,为用户提供全面的资源和支持,便于在各个专业领域内应用和研究。
基于LLM之间同行评审机制的大型语言模型性能评估框架,支持自定义任务数据和配置文件,无需修改代码即可运行,适用于评估和筛选语言模型。