该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
Query Vary 是一个革命性的工具,旨在支持开发者高效地与大型语言模型(LLMs)合作,提供可靠和高效的提示创建及测试。它的全面测试套件为开发者提供了设计、测试和完善提示所需的工具,确保准确性、减少延迟,并优化成本。该工具不仅释放了开发者的时间,使其能专注于创新和产品开发,还通过内置的安全措施提高了应用程序的安全性和质量。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
用于LLM360评估和分析的代码库,包含了多种评估指标和分析方法,旨在帮助用户全面理解和优化模型表现。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
Airdoc.Pro 是一个平台,旨在自动化提取和组织建筑过程中的交付文档数据。它通过AI技术实现现场库存、现场登记、工程量清单的高效管理,并提供详细的供应商洞察。用户可以轻松处理扫描件、照片或PDF文件,系统会自动提取交付票据中的字段和项目,分类每一项并计算碳排放。所捕获的数据可用于最终结算、成本规划、评估和投标报告。
xCodeEval是一个大规模多语言多任务基准,用于评估代码理解、生成、翻译和检索的能力,旨在为研究和开发提供支持。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。