API接口探索

ConsoleX LLM playground官网 – 统一的LLM实验平台

ConsoleX是一个综合性的LLM实验平台，结合了聊天接口、LLM API实验和批量评估，支持所有主流LLM，并提供比官方实验室更多的增强功能。

API接口探索LLM实验平台批量评估模型对话测试

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift是一个项目，旨在研究大型语言模型（如GPT-3.5和GPT-4）的性能漂移，特别关注其性能可能随时间下降的趋势及其影响。

LLM性能监测大型语言模型性能分析性能漂移研究模型重新训练工具

LightEval开源项目 – 轻量级的LLM评估工具

LightEval开源项目 – 轻量级的LLM评估工具

LightEval是一个轻量级的LLM评估套件，Hugging Face在内部使用，并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。

Hugging FaceLLM评估工具模型性能评估轻量级工具

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画，帮助用户直观了解不同模型的表现和竞争力。

动态可视化大语言模型排名分析模型性能比较研究支持工具

LLMonitor官网 – AI开发者的开源可观察性工具

LLMonitor是一个开源的监控与评估工具，专为AI开发者设计，旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能，帮助开发者优化和调试复杂的AI代理和聊天机器人。

AI应用可观察性大型语言模型监控开源监控工具聊天机器人调试

LLMStats开源项目 – 社区驱动的LLM数据与基准测试资源

LLMStats开源项目 – 社区驱动的LLM数据与基准测试资源

一个社区驱动的LLM数据和基准测试资源库，提供大量语言模型的详细信息，包括模型参数、上下文窗口大小、许可证详情、性能指标等数据。通过llm-stats.com网站可以交互式探索和比较不同的语言模型。

LLM数据资源基准测试社区驱动语言模型比较

The False Promise of Imitating Proprietary LLMs-评估开源大语言模型的实际能力

该论文评估了许多开源大语言模型在使用ChatGPT数据微调后的效果，认为这些模型虽然表面上看似提升，但在事实性、编码能力和问题解决方面表现不佳，强调了提高基础语言模型性能的重要性。

开源大语言模型评估微调影响分析语言模型性能提升

api-bot开源项目 – tutorial

api-bot开源项目 – tutorial

Poe API是一个开源项目，提供了对Poe平台的开放接口，可以帮助开发者构建Poe机器人。这些机器人可以使用可视化工具和人工智能技术，如Anthropic和OpenAI的客户端。

AI学习网站AI开源项目AI编程工具

spelltest开源项目 – 提示工程工具：LLM 的 AI 到 AI 测试。

spelltest开源项目 – 提示工程工具：LLM 的 AI 到 AI 测试。

spelltest 是一个专为语言模型设计的测试工具，能够自动生成测试用例，评估模型性能，并提供详细的测试报告。它支持多种语言模型，用户可以根据需要定制测试参数，以便更好地适应不同的测试场景。

测试工具自动生成测试用例语言模型性能评估

Movie101开源项目 – 大规模中文电影理解基准

Movie101开源项目 – 大规模中文电影理解基准

Movie101是一个大规模的中文电影理解基准，包含101部电影，配备音频描述(AD)。数据集包含30,174个解说片段，总计92小时。基准包含两个任务：电影片段解说(MCN)和时序解说定位(TNG)，旨在推动中文电影理解领域的研究与应用。

中文电影理解基准时序解说定位机器学习数据集电影片段解说

TensorZero开源项目 – 构建开源大型语言模型系统

TensorZero开源项目 – 构建开源大型语言模型系统

TensorZero是一个开源基础设施，旨在支持生产级、可扩展和复杂的大型语言模型（LLM）系统。它集成了推理、可观测性、优化和实验功能，支持多步骤LLM系统，并通过ClickHouse数据仓库实现实时、可扩展且开发者友好的分析。

LLM系统优化实时数据分析开源大型语言模型系统推理集成

Analysis360开源项目 – LLM360评估与分析的代码库

Analysis360开源项目 – LLM360评估与分析的代码库

用于LLM360评估和分析的代码库，包含了多种评估指标和分析方法，旨在帮助用户全面理解和优化模型表现。

LLM360评估工具模型性能分析评估报告生成

ComfyUI_ColorMod开源项目 – 灵活的图像色彩处理工具

ComfyUI_ColorMod开源项目 – 灵活的图像色彩处理工具

ComfyUI颜色调整模块：图像色彩、对比度编辑、色调映射、16位和HDR图像支持工具，提供灵活的图像处理功能

16位图像支持HDR图像支持图像色彩处理工具对比度编辑

Poisoning Language Models During Instruction Tuning开源项目 – 针对语言模型的攻击方法

Poisoning Language Models During Instruction Tuning开源项目 – 针对语言模型的攻击方法

该项目实现了针对语言模型的攻击方法，特别是在指令调优过程中，旨在提高模型对恶意输入的鲁棒性，同时研究指令调优对模型性能的影响。

指令调优模型安全性研究模型鲁棒性毒化攻击

Tokenlimits官网 – 探索不同AI模型的令牌限制

TokenLimits是一个网站，允许用户探索不同AI模型的令牌限制。它提供关于各种AI模型的最大令牌、字符和单词数量的信息，帮助用户了解在不同文本模型（如ChatGPT Plus、GPT-4、GPT-3.5-Turbo、GPT-3和Codex）中可以输入的内容限制。此外，该网站还提供图像提示模型（如Stable Diffusion）和嵌入模型（如Ada-002）的令牌限制。

AI模型令牌限制查询AI输入优化工具多模型比较工具

OpenAPI-Specification开源项目 – API 规范的图书馆

OpenAPI-Specification开源项目 – API 规范的图书馆

一个收集了各种开源 API 规范的仓库，像一个 API 规范图书馆，方便你了解 API 的接口定义和使用方法。

API规范库OpenAPI规范学习API接口定义

Chocolate Factory开源项目 – 开源 LLM 应用引擎，助力开发

Chocolate Factory开源项目 – 开源 LLM 应用引擎，助力开发

Chocolate Factory 是一款开源的 LLM 应用引擎/应用框架，旨在帮助您轻松打造强大的 SDLC + LLM 生成助手，同时集成代码库 AI 助手功能，支持多种设计思想，基于 Apache 2.0 协议进行开发。

RESTful API 创建SDLC 生成助手代码库 AI 助手动态前端组件生成

Caesium Image Compressor开源项目 – 高效的图像压缩工具

Caesium Image Compressor开源项目 – 高效的图像压缩工具

Caesium Image Compressor 是一款开源免费的图片压缩工具，支持 PNG、JPG 和 Webp 格式，能够在保持质量的情况下减少图像大小，适用于 Windows、MacOS 和 Linux 系统，便于用户存储、分享和发送数码图片。

图片压缩工具开源图像处理跨平台图像压缩

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3