LongBench是一个专为中英双语长文本理解而设计的评测基准,支持多种理解任务的评估,并提供标准化的数据集和评测指标,适用于各种长文本处理模型的性能评估。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
大型语言模型的数据、模型和基准集市,为ChatGPT的大众化贡献力量
该项目集成了基于 transformers 库实现的多种自然语言处理任务,支持用户使用各种预训练模型,进行文本分类、生成、命名实体识别、机器翻译等操作,并且允许用户自定义数据集,易于使用和扩展。
katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具,提供超过30个标准化数据集,并支持多种基于循环的离线强化学习基线模型,旨在促进研究和开发中的基准测试。
Aviary是一个基于Gymnasium框架的语言模型Agent训练平台,专注于构建性任务,提供了灵活的训练环境和多种模型集成,旨在满足研究和应用中的多样化需求。