Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
这是一本关于在自然语言处理任务中使用大型语言模型(LLMs)的全面指南,提供有关模型、数据和下游任务的深入见解。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
这是一个关于大型语言模型(LLM)选项的全面集合,提供了分类清晰的资源列表,便于用户查找和使用。该项目定期更新,包含新的模型和工具,同时接受社区贡献和建议。
一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
FLASK是一个专注于基于技能集的细粒度评估工具,能够对大语言模型(LLM)进行全面分析和比较。它提供了评估模型在不同能力上的表现,并与最先进的开源LLM进行对比,帮助用户了解模型的优势和不足。
Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
Thelo是一个帮助用户选择合适的语言模型(LLM)供应商的平台,它不仅优化各类提示的响应,还能为每个提示找到最佳且最具成本效益的解决方案。通过使用Thelo,用户可以轻松比较不同供应商的性能和价格,从而做出明智的决策。
深度求索发布的开源代码大模型,33B版的性能显着优于现有的开源代码LLM。该项目包含多个规模的代码语言模型,从10亿到330亿标记不等,经过预训练,使用16,000标记的窗口大小和额外的填空任务,支持项目级别的代码补全和填充,在多种编程语言和各种基准测试中取得最先进性能。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。
JADE-Database是面向国内开源和国外商用大模型的Demo数据集,包含多种自然文本数据,覆盖多个问题类型,旨在用于大模型的靶向安全评测。
斯坦福开发的一种遵循指令的 LLaMA 模型,基于 Meta 的 LLaMA 7B 模型进行微调,性能接近 OpenAI 的 text-davinci-003,支持在单个 GPU 或 CPU 上运行。
Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具,具备图同构的比较方法,旨在帮助研究人员分析和提升模型的性能。