模型评估工具

Reasoning-Attack开源项目 – 揭示LLM推理漏洞

Reasoning-Attack开源项目 – 揭示LLM推理漏洞

Reasoning-Attack项目旨在揭示大型语言模型（LLM）在推理过程中的漏洞，特别是模型在特定查询下无法生成结束标记，导致资源耗尽的问题。通过实验验证，该项目展示了仅需少量攻击请求即可完全占用GPU资源，形成低成本DDoS攻击手段。此外，攻击查询可在同系列模型间转移，对开源开发生态构成威胁。项目提供了测试、评估和防御推理攻击的工具，帮助开发者和研究人员识别和分析不同模型在面对攻击查询时的表现。

DDoS攻击手段LLM推理漏洞开源项目推理攻击防御

Open-R1-完全开源的DeepSeek开源项目 – R1复现项目

Open-R1-完全开源的DeepSeek开源项目 – R1复现项目

Open-R1是一个开源项目，旨在完整复现DeepSeek-R1的技术框架，并推动社区协作进一步完善。该项目提供了全面的模型训练、评估和数据生成工具，支持多种硬件加速，旨在帮助研究人员和开发者轻松复现和扩展R1模型。

开源项目强化学习支持数据生成工具模型训练工具

MusicGen Trainer开源项目 – 简化MusicGen模型训练

MusicGen Trainer开源项目 – 简化MusicGen模型训练

MusicGen模型训练器，旨在简化MusicGen和Audiocraft模型的训练过程，提供用户友好的界面和强大的功能，帮助用户轻松进行音频模型的训练和评估。

MusicGen模型训练器数据增强模型评估工具音频模型训练

LLMBox开源项目 – 全面的工具库，支持大型语言模型的训练与评估

LLMBox开源项目 – 全面的工具库，支持大型语言模型的训练与评估

LLMBox是一个用于实现大型语言模型的综合库，提供统一的训练流程和全面的模型评估，支持多种训练策略和数据集构建策略，以及高效的数据预处理工具。其可扩展的插件系统使得用户可以根据需求灵活定制，适用于多种大语言模型架构。

大型语言模型训练工具插件系统数据集构建工具模型评估工具

Magi开源项目 – 基于JAX的强化学习库

Magi开源项目 – 基于JAX的强化学习库

Magi是一个基于JAX的强化学习库，支持多种算法并提供灵活的环境接口，易于扩展和自定义，集成了评估和可视化工具。

JAX强化学习库强化学习算法性能可视化模型评估工具

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准，提供多种评测任务，支持各种模型和算法的评估，易于扩展和定制，旨在推动中文NLP研究的发展。

中文NLP小样本学习测评基准模型评估工具自定义评测任务

LLM-Tuning开源项目 – 无痛微调大语言模型

LLM-Tuning开源项目 – 无痛微调大语言模型

LLM-Tuning 是一个专注于简化大语言模型（LLM）微调过程的工具，支持多种模型与数据集，旨在帮助用户轻松实现模型训练与评估。

LLM微调工具大语言模型训练模型评估工具自定义数据集

river-torch开源项目 – 基于PyTorch的在线深度学习库

river-torch开源项目 – 基于PyTorch的在线深度学习库

river-torch是一个基于PyTorch的Python库，专为在线深度学习而设计，支持实时数据的模型适应。它与River框架无缝集成，提供多种神经网络架构，并包含模型评估和性能监控工具。

PyTorch在线深度学习库实时数据模型适应性能监控

TransferAttack开源项目 – 提升图像分类对抗性传递的框架

TransferAttack开源项目 – 提升图像分类对抗性传递的框架

TransferAttack是一个基于PyTorch的框架，旨在提升图像分类中的对抗性传递性，提供评估和攻击模型的功能，并对已有的传递性攻击进行分类和评估。

PyTorch图像分类传递性攻击分析对抗性攻击框架模型评估工具

免费大型语言模型API资源开源项目 – 汇集免费大型语言模型API的资源列表

免费大型语言模型API资源开源项目 – 汇集免费大型语言模型API的资源列表

一个汇集了可通过API访问的免费大型语言模型（LLM）推理资源的列表，方便开发者获取和使用各种大型语言模型的API。

API集成LLM推理资源免费大型语言模型API自然语言处理

LLM Zoo开源项目 – 大型语言模型的资源集市

LLM Zoo开源项目 – 大型语言模型的资源集市

大型语言模型的数据、模型和基准集市，为ChatGPT的大众化贡献力量

ChatGPT应用大型语言模型资源数据集贡献模型评估

LaMini-LM开源项目 – 提升迷你大语言模型性能的项目

LaMini-LM开源项目 – 提升迷你大语言模型性能的项目

LaMini-LM是一个对多个迷你大语言模型进行微调的项目，旨在提升模型的性能，其中包括经过微调的GPT-2，其性能可与LLaMa的Alpaca-7B相媲美。

开源项目微调语言模型文本生成模型性能评估

GPT Status官网 – 实时监控OpenAI API性能

GPT Status是一个社区仪表盘，用户可以实时跟踪OpenAI API的可用性和性能，获取不同GPT模型的响应时间等信息，保持对这些模型性能的更新。

API可用性跟踪GPT模型性能比较历史数据分析实时监控OpenAI API性能

ComplexFuncBench开源项目 – 复杂函数调用的终极测试基准

ComplexFuncBench开源项目 – 复杂函数调用的终极测试基准

ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具，旨在解决复杂场景下的函数调用评估难题，帮助开发者优化模型性能。

复杂函数调用基准测试工具模型性能评估自动化评估框架

TokenHawk开源项目 – 基于WebGPU的高效推理工具

TokenHawk开源项目 – 基于WebGPU的高效推理工具

TokenHawk是一个基于WebGPU的工具，旨在通过手写LLaMA模型进行高效的LLM推理，支持多种输入格式，并提供实时推理性能优化，适用于各种应用场景。

Llama模型LLM推理WebGPU推理工具实时推理优化

Simple-SimCSE开源项目 – 简单实现SimCSE模型

Simple-SimCSE开源项目 – 简单实现SimCSE模型

Simple-SimCSE是SimCSE模型的简单实现，支持无监督和有监督的训练方法，易于与流行的深度学习框架（如PyTorch）集成，并允许自定义训练和评估设置。

PyTorch集成SimCSE模型实现无监督训练有监督训练

FlashAttention开源项目 – 优化注意力机制，加速AI推理

FlashAttention开源项目 – 优化注意力机制，加速AI推理

FlashAttention是一个开源的推理加速工具，专为AI大模型设计，通过优化注意力机制的计算流程，显著提升推理速度，尤其适合需要实时响应的场景。其v2版本比v1快2倍，比标准注意力机制快5-9倍，在A100上达到225 TFLOPs/s的训练速度，并已在大多数LLM库中得到广泛应用。

FlashAttention-2PyTorch注意力机制深度学习

TaxEval开源项目 – 税务领域的语言模型评估工具

TaxEval开源项目 – 税务领域的语言模型评估工具

TaxEval 是一个专注于税务领域的语言模型评估工具，支持多种评估指标并提供详细的评估报告，便于集成到现有的税务应用中。

模型性能分析税务领域语言模型评估工具评估报告评估指标

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3