该论文探讨了语言模型在反事实任务中的能力和限制,揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。
TinyCLIP通过亲和模仿和权重继承技术,优化CLIP模型的蒸馏过程,提升小型模型在视觉任务中的表现,并支持多模态应用的迁移学习。