评估大型语言模型

fmeval开源项目 – 评估大型语言模型性能的工具

fmeval开源项目 – 评估大型语言模型性能的工具

Amazon Foundation Model Evaluations Library，用于评估大型语言模型（LLMs），帮助选择最适合您用例的LLM。该库提供多种评估功能，覆盖开放式生成、文本摘要、问答和分类任务，旨在帮助用户全面了解不同模型在特定任务上的表现。

LLM性能评估工具分类任务评估开放式生成任务评估文本摘要评估

StructuredRAG开源项目 – 评估大型语言模型的响应格式能力

StructuredRAG开源项目 – 评估大型语言模型的响应格式能力

StructuredRAG是一个用于评估大型语言模型（LLM）遵循响应格式指令能力的六个任务基准，旨在研究不同提示策略对模型性能的影响，并提供复杂任务的性能评估。该项目还包括开源实验代码和结果，方便研究人员进行进一步探索。

复杂任务性能评估开源实验代码提示策略研究评估大型语言模型

PromptBench开源项目 – 评估大型语言模型的统一框架

PromptBench开源项目 – 评估大型语言模型的统一框架

用于评估和理解大型语言模型的统一评估框架，提供了用户友好的API，方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。

对抗提示攻击评估提示工程用户友好的API评估大型语言模型

SuperCLUE开源项目 – 中文通用大模型综合性基准

SuperCLUE开源项目 – 中文通用大模型综合性基准

SuperCLUE是一个针对中文大模型的综合性基准测试平台，提供标准化的评估指标和多任务测试能力，旨在帮助研究者评估和比较中文大模型的性能。

中文大模型基准测试性能评估工具模型比较平台

DeepMark开源项目 – 基准测试工具，评估LLM性能

DeepMark开源项目 – 基准测试工具，评估LLM性能

DeepMark是一款基准测试工具，旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能，帮助开发者理解模型的表现并优化其在不同场景下的应用。

AI开发流程集成LLM性能评估基准测试工具性能报告生成

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks-探讨语言模型的推理能力与局限性

该论文探讨了语言模型在反事实任务中的能力和限制，揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。

任务解决过程反事实任务抽象推理分析语言模型能力评估

Flow GPT官网 – 提升效率的ChatGPT提示库

FlowGPT是一个强大的聊天提示库，提供多样化的ChatGPT提示，帮助用户找到最佳提示以增强沟通效率。用户可以根据不同类别浏览提示，如聊天、角色、编程、市场营销、学术、求职、游戏、创意、提示工程、商业和生产力，并可使用关键词搜索特定提示。找到合适的提示后，用户可以将其复制到ChatGPT界面或应用中使用。

AI角色开发ChatGPT提示库关键词搜索创造性写作

LLMOps Python Package开源项目 – 助力大型语言模型运营的高效工具

LLMOps Python Package开源项目 – 助力大型语言模型运营的高效工具

LLMOps是一个灵活、稳健且高效的Python工具包，专为大型语言模型(LLM)的运营设计。它提供了模型注册、实验跟踪和实时推理等关键功能，帮助开发者和研究人员更好地管理和优化他们的模型。该工具包支持高效的操作，并具备灵活的集成能力，适用于各种机器学习工作流。

LLMOpsPython工具包大型语言模型运营实时推理

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集，来源于清晰路径机器人仓库，旨在提供增量感知数据，支持机器人导航和环境理解的研究。

增量感知数据集机器人导航机器学习环境理解

Imagen官网 – 文本生成图像的高保真模型

Imagen是一个文本到图像的扩散模型，具有极高的真实感，利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数，并在样本质量和图像-文本对齐方面被人类评审者优先选择。

AI图像生成模型DrawBench基准测试文本生成图像高保真图像生成

regression2chatgpt开源项目 – 大语言模型与线性回归的结合

regression2chatgpt开源项目 – 大语言模型与线性回归的结合

《解构大语言模型：从线性回归到通用人工智能》配套代码，提供了大语言模型的实现与分析，展示了线性回归与语言模型之间的关系，并支持多种数据集与训练配置，易于扩展与自定义。

大语言模型实现数据集训练模型比较实验线性回归分析

llama98.c开源项目 – 在老旧硬件上运行大模型

llama98.c开源项目 – 在老旧硬件上运行大模型

一个魔改版的llama2.c，旨在利用1998年的计算机硬件（Intel Pentium II CPU + 128MB RAM）在Windows 98系统上运行大模型。

性能基准测试老旧硬件深度学习实验平台运行大模型的工具

GpTea官网 – 终极ChatGPT提示站与AI社区

GpTea是一个综合性的ChatGPT提示平台，提供丰富的提示库，供AI爱好者连接与合作。用户可以浏览、选择和定制提示，同时参与活跃的AI社区，进行讨论和学习。

AI研究与合作AI社区ChatGPT提示平台写作辅助

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark开源项目 – 内存高效的LLM微调基准研究

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark开源项目 – 内存高效的LLM微调基准研究

本项目对零阶优化技术进行了基准研究，重点关注在微调大型语言模型时的内存效率。

优化算法基准测试内存高效的LLM微调零阶优化技术

Prompt-Transferability开源项目 – 研究prompt的迁移性

Prompt-Transferability开源项目 – 研究prompt的迁移性

该项目研究了prompt在不同下游任务和不同类型、规模的预训练语言模型之间的迁移性，探索其在零样本设定下的有效性、对其他模型的适用性以及对训练速度的提升，并分析了影响迁移性的因素。

prompt迁移性研究神经元重叠率分析训练效率提升零样本推理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3