Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
JADE-Database是面向国内开源和国外商用大模型的Demo数据集,包含多种自然文本数据,覆盖多个问题类型,旨在用于大模型的靶向安全评测。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
医疗大语言模型综合评测框架,特点包括大规模综合性能评测、深入细分的多维度场景评估、创新性的开放式评估指标和自动化评估模型
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准
Raspberry是一个旨在为微调具有推理能力的LLM创建开源玩具数据集的项目,特色在于通过合成复杂用户查询和自我批评数据来提升模型的推理能力。
RQABench是一个开源的检索问答基准工具,旨在评估检索增强生成(RAG)系统,具有灵活性、可复现性和可追溯性等特点,支持多种RAG模型的评估并提供标准化的基准测试。
LLMTuner是一个高效的工具,旨在通过简化的微调流程,使用户能够在几行代码内调整大语言模型(LLM)。它支持多种预训练模型的加载和微调,提供灵活的超参数调整功能,同时拥有友好的用户界面,便于用户快速上手。该项目的可扩展性强,适用于不同的应用场景。
Apollo是一个多语言医学模型、数据集、基准和代码的开源项目,旨在为英语、中文、法语、印地语、西班牙语和阿拉伯语提供医学领域的自然语言处理能力。
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源,适合企业应用和研究。
EmotionPrompt是一种将原始提示与情绪刺激相结合的方法,旨在通过情绪提示增强大型语言模型(LLM)的表现。