Aidan Bench开源项目 – 衡量LLMs创新性与可靠性的工具

Aidan Bench是一个专门用于评估大型语言模型（LLMs）创新性与可靠性的工具。通过一系列开放式问题，它测试模型的创造力、可靠性、上下文注意力和指令遵循能力，旨在揭示在标准基准测试中可能被低估的能力。
Aidan Bench的特点:
1. 测试模型的创造力
2. 评估模型的可靠性
3. 分析上下文注意力
4. 验证指令遵循能力
5. 发现标准基准测试中可能被低估的能力

Aidan Bench的功能:
1. 使用开放式问题进行模型测试
2. 比较不同大型语言模型的表现
3. 发现和分析模型在特定任务中的潜力
4. 优化和改进大型语言模型的设计

相关导航

利用语言大模型中的标签变化进行 zero-shot 文本分类-基于标签变化的零样本分类

该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异，通过特定方法优化性能，虽然相较于传统方法仍有不足，尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势，仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。

为语言模型的事实性评估生成基准数据集-评估语言模型生成事实性的能力

在部署语言模型前，评估其在特定领域生成事实性信息的能力很重要。我们提出了方法，通过语料库转换自动生成，以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准，并发现基准分数与模型大小和检索增强相关，但在模型排名上并不总是与困惑度一致。

RLAIF-增强人类反馈的强化学习

RLAIF通过人工智能反馈扩展人类反馈的强化学习，表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。

Tokenlimits官网 – 探索不同AI模型的令牌限制

TokenLimits是一个网站，允许用户探索不同AI模型的令牌限制。它提供关于各种AI模型的最大令牌、字符和单词数量的信息，帮助用户了解在不同文本模型（如ChatGPT Plus、GPT-4、GPT-3.5-Turbo、GPT-3和Codex）中可以输入的内容限制。此外，该网站还提供图像提示模型（如Stable Diffusion）和嵌入模型（如Ada-002）的令牌限制。

Scientific Large Language Models Survey开源项目 – 专注于生物与化学领域的调查

这是一个关于科学大型语言模型（Sci-LLMs）的全面调查，重点关注生物学和化学领域，提供深入的分析与比较，以助于研究人员更好地了解和应用这些模型。

LLMSurvey开源项目 – LLaMA模型族进化图

LLMSurvey是一个提供LLaMA模型族进化图的项目，用户可以通过该工具查看不同版本模型的性能，比较多种模型参数，并获取相关的训练和评估数据。

FLEX开源项目 – 少样本NLP评估的统一框架

FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架，旨在为研究人员和开发者提供一个标准化的评估平台，支持多种NLP任务，便于比较不同模型的性能，并允许用户根据需要自定义评估指标。

Chatbot Arena ELO Ranking Animation开源项目 – 动态展示大语言模型的排名变化

通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画，帮助用户直观了解不同模型的表现和竞争力。

LLaMA-Factory开源项目 – 高效微调大语言模型的工具

LLaMA-Factory 是一个易于使用的 WebUI 框架，旨在高效微调 100 多种大语言模型（LLM）。它支持多种模型和训练方法，包括 LLaMA、Mistral、Qwen 等，并集成了多种微调方法如 LoRA、QLoRA、PPO、DPO 等。LLaMA-Factory 提供了高级算法如 GaLore、BAdam、DoRA、LongLoRA 等，以及实用技巧如 flashattention、RoPE 缩放等，以优化微调效果。此外，它还支持实验管理工具如 LlamaBoard、TensorBoard、Wandb，以及高效的推理接口如 Gradio UI 和 OpenAI 风格的 API。