OpenAI开源的轻量级语言模型评估库,主要用于透明化模型性能指标的发布。 强调零样本思维链评估方式,提供多个标准化测试基准,支持主流API接口。 包含MMLU、MATH等7个核心评估指标,涵盖理解、数学、编程等多维度能力测试。 特别包含BrowseComp浏览器智能体专项测试集(1266个高难度问题)。
ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation,RAG)性能的框架。它基于最新的研究提供工具,帮助用户评估语言模型生成的文本,并提供有关RAG管道性能的深入洞见。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具,旨在提供更准确的评估结果,揭示模型的强项和弱点,并指导语言模型的进一步发展。
Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具,具备图同构的比较方法,旨在帮助研究人员分析和提升模型的性能。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
Haven是一个用于大型语言模型微调和评估的工具,拥有简单的用户界面,可以方便地进行模型微调并基于多种标准进行评估。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
Skyvern AI 是一个通过大语言模型(LLM)和计算机视觉技术,自动化基于浏览器的工作流程的项目。它提供了一个简单的 API 端点,便于集成到现有系统中,完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
用大型语言模型重新思考自动驾驶,使用GPT-3.5作为默认的大型语言模型(LLM),介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法
关于基于大型语言模型(LLM)的终身学习(Lifelong Learning)代理(Agent)的资源和研究论文的库,旨在促进LLM在不断变化环境中的适应能力,收集了优秀的调研和资源,包含多篇相关研究论文,并提供多样的学习和应用案例。
本文评估了LLM自动生成特征归因解释的能力,研究不同方式触发自我解释的可信度,并与传统解释方法进行了比较。
SlashGPT是一个旨在帮助开发人员快速制作大语言模型(LLM)智能体或具有自然语言用户界面的应用原型的平台。它提供了丰富的功能和灵活的API,支持快速的原型开发和测试,适合教育和实验用途。