性能漂移研究

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift是一个项目，旨在研究大型语言模型（如GPT-3.5和GPT-4）的性能漂移，特别关注其性能可能随时间下降的趋势及其影响。

LLM性能监测大型语言模型性能分析性能漂移研究模型重新训练工具

LLMArena官网 – 轻松创建并分享LLM对比

LLMArena是一个易于使用的工具，可以帮助用户并排比较多个大型语言模型（LLM），并美观地分享这些比较。用户可以选择2到10个LLM进行对比，生成直观的比较结果。

LLM对比工具分享比较结果语言模型比较

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画，帮助用户直观了解不同模型的表现和竞争力。

动态可视化大语言模型排名分析模型性能比较研究支持工具

SLMs-Survey开源项目 – 小型语言模型的全面调研资源

SLMs-Survey开源项目 – 小型语言模型的全面调研资源

小型语言模型综述资源集：旨在全面调研小型语言模型的技术、应用、效率以及与大型语言模型的协作和可信度

可信度研究小型语言模型调研应用场景性能比较

Context Length Extension Techniques in Large Language Models-探讨上下文长度扩展的研究进展

本项目对大型语言模型中的上下文长度扩展进行了详细调研，讨论了现有策略、评估复杂性及研究者面临的挑战。

NLP研究上下文长度扩展大型语言模型研究资源

ConsoleX LLM playground官网 – 统一的LLM实验平台

ConsoleX是一个综合性的LLM实验平台，结合了聊天接口、LLM API实验和批量评估，支持所有主流LLM，并提供比官方实验室更多的增强功能。

API接口探索LLM实验平台批量评估模型对话测试

Aidan Bench开源项目 – 衡量LLMs创新性与可靠性的工具

Aidan Bench开源项目 – 衡量LLMs创新性与可靠性的工具

Aidan Bench是一个专门用于评估大型语言模型（LLMs）创新性与可靠性的工具。通过一系列开放式问题，它测试模型的创造力、可靠性、上下文注意力和指令遵循能力，旨在揭示在标准基准测试中可能被低估的能力。

Aidan BenchLLMs评估工具创新性与可靠性测试模型性能比较

GPQA-高难度的研究生级问答基准

Graduate-Level Google-Proof Q&A Benchmark，是一个评估大型语言模型和可扩展监督机制能力的高难度数据集，包含448道选择题，旨在测试专家的准确率。

大型语言模型评估研究生级测试集高难度问答基准

DeepMark开源项目 – 基准测试工具，评估LLM性能

DeepMark开源项目 – 基准测试工具，评估LLM性能

DeepMark是一款基准测试工具，旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能，帮助开发者理解模型的表现并优化其在不同场景下的应用。

AI开发流程集成LLM性能评估基准测试工具性能报告生成

OpenCompass开源项目 – 一个高效的LLM评测平台

OpenCompass开源项目 – 一个高效的LLM评测平台

OpenCompass是一个大型语言模型评测平台，支持20多种模型和50多个数据集，能够通过高效的分布式评估技术进行快速全面的基准测试。

LLM评测平台分布式评估技术模型性能评估

Sleeper Agents-训练能够持续学习的欺骗性大语言模型

Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型，以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术，分析大语言模型的长期潜在威胁，确保其安全性。

安全培训中的对抗性测试工具持续学习的欺骗性大语言模型语言模型安全性评估

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法，通过模拟《Street Fighter 3》中的战斗表现作为基准，帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。

LLM质量评估决策能力测试实时游戏评估适应性分析

LightEval开源项目 – 轻量级的LLM评估工具

LightEval开源项目 – 轻量级的LLM评估工具

LightEval是一个轻量级的LLM评估套件，Hugging Face在内部使用，并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。

Hugging FaceLLM评估工具模型性能评估轻量级工具

AgentBoard开源项目 – 评估多轮对话智能体能力

AgentBoard开源项目 – 评估多轮对话智能体能力

AgentBoard是一个多轮LLM智能体的分析评估排行榜，旨在评估大型语言模型的通用Agent能力。它提供全面的性能分析和可视化结果，支持多种模型的比较，帮助用户深入理解智能体在对话中的表现。

LLM智能体分析可视化评估多轮对话评估性能报告生成

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All是一款在本地运行的大型语言模型（LLM），最新发布了V3.0版本，支持多种模型架构，并与多种工具和平台集成。它基于LLaMa模型，使用约80万条GPT-3.5-Turbo生成的数据进行训练，支持多种类型的对话，包括代码和故事。GPT4All完全本地运行，确保数据隐私，支持Windows、MacOS、Ubuntu等操作系统，并具有改进的UI/UX。

Llama模型开源聊天机器人本地测试自定义模型训练

FinLLMs开源项目 – 金融领域大型语言模型资源汇编

FinLLMs开源项目 – 金融领域大型语言模型资源汇编

FinLLMs是一个专注于金融领域的大型语言模型资源汇编，涵盖了模型的发展历史、技术细节、评估方法，以及在金融领域面临的机遇与挑战，旨在为研究人员和开发者提供最新的信息和资源支持。

AI在金融领域的应用研究与开发支持金融领域大型语言模型资源

glideprompt官网 – 优化语言模型选择的工具

glideprompt 是一个能够编写系统提示并在流行语言模型（如 Llama、Mistral、OpenAI、Claude、Gemini）上测试的工具，帮助用户更好地决定哪个语言模型最适合他们的任务。用户只需输入任务，即可获得针对语言模型的系统级提示。该工具比较不同语言模型的性能，以辅助用户为特定任务选择最佳模型。

任务选择工具自动生成系统提示语言模型性能比较

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

一个通过模拟面试过程来评估大型语言模型（LLMs）能力的框架，让一个LLM扮演面试官的角色，通过提供反馈和追问问题来全面评估其他LLMs的能力。

AI面试官LLM模拟面试语言模型评估

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3