RestGPT 是基于大型语言模型的自主代理的代码实现,通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来,解决与规划、API 调用和响应解析相关的挑战。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
spelltest 是一个专为语言模型设计的测试工具,能够自动生成测试用例,评估模型性能,并提供详细的测试报告。它支持多种语言模型,用户可以根据需要定制测试参数,以便更好地适应不同的测试场景。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。