2025年最强大的对抗性攻击框架AI工具推荐

TransferAttack开源项目 – 提升图像分类对抗性传递的框架

TransferAttack是一个基于PyTorch的框架，旨在提升图像分类中的对抗性传递性，提供评估和攻击模型的功能，并对已有的传递性攻击进行分类和评估。

0

PyTorch图像分类传递性攻击分析对抗性攻击框架模型评估工具

免费大型语言模型API资源开源项目 – 汇集免费大型语言模型API的资源列表

一个汇集了可通过API访问的免费大型语言模型（LLM）推理资源的列表，方便开发者获取和使用各种大型语言模型的API。

0

API集成LLM推理资源免费大型语言模型API自然语言处理

LLM Zoo开源项目 – 大型语言模型的资源集市

大型语言模型的数据、模型和基准集市，为ChatGPT的大众化贡献力量

0

ChatGPT应用大型语言模型资源数据集贡献模型评估

LaMini-LM开源项目 – 提升迷你大语言模型性能的项目

LaMini-LM是一个对多个迷你大语言模型进行微调的项目，旨在提升模型的性能，其中包括经过微调的GPT-2，其性能可与LLaMa的Alpaca-7B相媲美。

0

开源项目微调语言模型文本生成模型性能评估

GPT Status官网 – 实时监控OpenAI API性能

GPT Status是一个社区仪表盘，用户可以实时跟踪OpenAI API的可用性和性能，获取不同GPT模型的响应时间等信息，保持对这些模型性能的更新。

0

API可用性跟踪GPT模型性能比较历史数据分析实时监控OpenAI API性能

ComplexFuncBench开源项目 – 复杂函数调用的终极测试基准

ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具，旨在解决复杂场景下的函数调用评估难题，帮助开发者优化模型性能。

0

复杂函数调用基准测试工具模型性能评估自动化评估框架

TokenHawk开源项目 – 基于WebGPU的高效推理工具

TokenHawk是一个基于WebGPU的工具，旨在通过手写LLaMA模型进行高效的LLM推理，支持多种输入格式，并提供实时推理性能优化，适用于各种应用场景。

0

Llama模型LLM推理WebGPU推理工具实时推理优化

Simple-SimCSE开源项目 – 简单实现SimCSE模型

Simple-SimCSE是SimCSE模型的简单实现，支持无监督和有监督的训练方法，易于与流行的深度学习框架（如PyTorch）集成，并允许自定义训练和评估设置。

0

PyTorch集成SimCSE模型实现无监督训练有监督训练

FlashAttention开源项目 – 优化注意力机制，加速AI推理

FlashAttention是一个开源的推理加速工具，专为AI大模型设计，通过优化注意力机制的计算流程，显著提升推理速度，尤其适合需要实时响应的场景。其v2版本比v1快2倍，比标准注意力机制快5-9倍，在A100上达到225 TFLOPs/s的训练速度，并已在大多数LLM库中得到广泛应用。

0

FlashAttention-2PyTorch注意力机制深度学习

TaxEval开源项目 – 税务领域的语言模型评估工具

TaxEval 是一个专注于税务领域的语言模型评估工具，支持多种评估指标并提供详细的评估报告，便于集成到现有的税务应用中。

0

模型性能分析税务领域语言模型评估工具评估报告评估指标

HVML解释器 PurC开源项目 – HVML代码的高效执行

HVML解释器PurC是一个能够运行HVML代码的开源项目，支持跨端运行，并具备高效的代码解析能力。它旨在为开发者提供一个便捷的环境，以方便地编写和测试HVML程序。

0

HVML解释器代码解析开源项目性能测试

DeepEval开源项目 – 轻松评估大语言模型

提供一种 Pythonic 方式在 LLM 管线上运行离线评估，以便轻松投入生产

0

LLM评估工具模型性能验证自动化测试框架

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具，具备图同构的比较方法，旨在帮助研究人员分析和提升模型的性能。

0

PDDL转换工具模型性能分析语言模型评估工具

Hallucination Leaderboard开源项目 – 评估语言模型幻觉表现的排行榜

Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜，旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率，目前显示GPT-4和GPT-3.5表现最佳。

0

学术研究支持幻觉表现排行榜模型输出质量分析语言模型评估

MagicVideo-V2开源项目 – 多阶段高美视频生成工具

MagicVideo-V2 是一款先进的视频生成工具，能够根据文本描述生成高分辨率视频，集成了多种高科技功能，实现视频内容的创作与编辑，适用于广告和营销领域。

0

广告视频制作文本到视频生成工具视频内容创作与编辑高分辨率视频生成

OVT-B开源项目 – 开放词汇多目标跟踪的大规模基准

OVT-B是一个用于开放词汇多目标跟踪的新型大规模基准，旨在评估和促进多目标跟踪算法的发展。该数据集支持多种跟踪算法的评估，并提供开放词汇的跟踪能力，以适应各种应用场景。

0

多目标跟踪算法评估大规模数据集开放词汇多目标跟踪基准