大语言模型排名分析

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画，帮助用户直观了解不同模型的表现和竞争力。

动态可视化大语言模型排名分析模型性能比较研究支持工具

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift是一个项目，旨在研究大型语言模型（如GPT-3.5和GPT-4）的性能漂移，特别关注其性能可能随时间下降的趋势及其影响。

LLM性能监测大型语言模型性能分析性能漂移研究模型重新训练工具

SLMs-Survey开源项目 – 小型语言模型的全面调研资源

SLMs-Survey开源项目 – 小型语言模型的全面调研资源

小型语言模型综述资源集：旨在全面调研小型语言模型的技术、应用、效率以及与大型语言模型的协作和可信度

可信度研究小型语言模型调研应用场景性能比较

llm-viz开源项目 – GPT风格LLM的3D可视化工具

llm-viz开源项目 – GPT风格LLM的3D可视化工具

llm-viz是一个用于GPT风格大语言模型的三维可视化工具，能够帮助用户深入理解模型的内部结构及其行为。通过交互式的方式，用户可以探索模型的输入、输出以及权重分布，提供多种视角和缩放功能以进行详细分析。

GPT风格模型分析LLM可视化工具三维可视化交互式模型探索

Flux Layers Explorer开源项目 – 探索Flux模型层级效果的工具

Flux Layers Explorer开源项目 – 探索Flux模型层级效果的工具

一个探索Flux Dev模型层级效果的工具，允许用户通过修改不同层的强度来研究模型行为，支持注意力层、双重块、单一块等多种层级的调整与实验

Flux模型层级探索工具实时模型可视化模型行为研究用户友好界面

ConsoleX LLM playground官网 – 统一的LLM实验平台

ConsoleX是一个综合性的LLM实验平台，结合了聊天接口、LLM API实验和批量评估，支持所有主流LLM，并提供比官方实验室更多的增强功能。

API接口探索LLM实验平台批量评估模型对话测试

benchmark4GPT开源项目 – 用于大语言模型的基准测试

benchmark4GPT开源项目 – 用于大语言模型的基准测试

一个包含多个样本的基准测试项目，用于大语言模型的测试和评估，旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本，支持自定义测试用例，易于与现有AI项目集成，方便进行系统性评估。

AI项目集成基准测试工具大语言模型评估自定义测试用例

Hands-On Large Language Models开源项目 – 大模型实践指南

Hands-On Large Language Models开源项目 – 大模型实践指南

《动手学大模型》是一本开源书籍，共12章节，涵盖从基础到高级的大语言模型内容，包括语言模型介绍、文本分类、提示词工程、语义搜索、微调模型、多模态模型等。书中包含大量代码示例，可直接在Colab运行，帮助读者更好地理解和应用大语言模型。此外，书中还提供了丰富的实践代码，旨在帮助读者掌握大型语言模型的使用和应用，适合初学者和有经验的开发者。

代码示例大型语言模型实践指南模型训练与微调自然语言处理

Sleeper Agents-训练能够持续学习的欺骗性大语言模型

Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型，以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术，分析大语言模型的长期潜在威胁，确保其安全性。

安全培训中的对抗性测试工具持续学习的欺骗性大语言模型语言模型安全性评估

FLEX开源项目 – 少样本NLP评估的统一框架

FLEX开源项目 – 少样本NLP评估的统一框架

FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架，旨在为研究人员和开发者提供一个标准化的评估平台，支持多种NLP任务，便于比较不同模型的性能，并允许用户根据需要自定义评估指标。

少样本NLP评估模型性能比较统一评估框架自定义评估指标

Awesome Evaluation of Visual Generation开源项目 – 视觉生成模型评估的综合资源

Awesome Evaluation of Visual Generation开源项目 – 视觉生成模型评估的综合资源

该项目汇集了关于视觉生成模型评估的相关作品，包括评估指标、模型和系统的详细信息。

模型比较研究资源视觉生成模型评估评估指标

mjc_viewer开源项目 – 基于浏览器的3D仿真查看器

mjc_viewer开源项目 – 基于浏览器的3D仿真查看器

mjc_viewer是一个基于浏览器的3D查看器，专为MuJoCo设计，支持实时可视化仿真，允许用户交互式操作3D模型，具有用户友好的界面和丰富的渲染选项。

MuJoCo仿真交互式3D模型操作实时可视化浏览器3D查看器

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3