TransferAttack是一个基于PyTorch的框架,旨在提升图像分类中的对抗性传递性,提供评估和攻击模型的功能,并对已有的传递性攻击进行分类和评估。
一个汇集了可通过API访问的免费大型语言模型(LLM)推理资源的列表,方便开发者获取和使用各种大型语言模型的API。
大型语言模型的数据、模型和基准集市,为ChatGPT的大众化贡献力量
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
GPT Status是一个社区仪表盘,用户可以实时跟踪OpenAI API的可用性和性能,获取不同GPT模型的响应时间等信息,保持对这些模型性能的更新。
ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具,旨在解决复杂场景下的函数调用评估难题,帮助开发者优化模型性能。
TokenHawk是一个基于WebGPU的工具,旨在通过手写LLaMA模型进行高效的LLM推理,支持多种输入格式,并提供实时推理性能优化,适用于各种应用场景。
Simple-SimCSE是SimCSE模型的简单实现,支持无监督和有监督的训练方法,易于与流行的深度学习框架(如PyTorch)集成,并允许自定义训练和评估设置。
FlashAttention是一个开源的推理加速工具,专为AI大模型设计,通过优化注意力机制的计算流程,显著提升推理速度,尤其适合需要实时响应的场景。其v2版本比v1快2倍,比标准注意力机制快5-9倍,在A100上达到225 TFLOPs/s的训练速度,并已在大多数LLM库中得到广泛应用。
TaxEval 是一个专注于税务领域的语言模型评估工具,支持多种评估指标并提供详细的评估报告,便于集成到现有的税务应用中。
HVML解释器PurC是一个能够运行HVML代码的开源项目,支持跨端运行,并具备高效的代码解析能力。它旨在为开发者提供一个便捷的环境,以方便地编写和测试HVML程序。
提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具,具备图同构的比较方法,旨在帮助研究人员分析和提升模型的性能。
Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜,旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率,目前显示GPT-4和GPT-3.5表现最佳。
MagicVideo-V2 是一款先进的视频生成工具,能够根据文本描述生成高分辨率视频,集成了多种高科技功能,实现视频内容的创作与编辑,适用于广告和营销领域。
OVT-B是一个用于开放词汇多目标跟踪的新型大规模基准,旨在评估和促进多目标跟踪算法的发展。该数据集支持多种跟踪算法的评估,并提供开放词汇的跟踪能力,以适应各种应用场景。