这篇论文探讨了如何评估大模型的性能,包括评估的内容、地点和方法,并分析了当前评估方法的有效性和可信度。
收集和梳理垂直领域的开源模型、数据集及评测基准,方便研究人员和开发者使用。
这是我在伯克利带的本科生Peter Tong去New York University师从Xie Saining和Yann LeCun后对目前所有主要大模型进行系统研究测试的最新工作。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
一个强化学习项目,旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程,使得AI推理训练更加高效,且小模型也能表现出强大的推理能力。
这篇论文对大语言模型的微调,从技术、研究、最佳实践、应用研究挑战和机遇等方面进行了详尽的回顾。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
本综述旨在提供关于利用大型语言模型进行NLG评估的全面概述,提出了一个系统的分析框架,以理解和比较这些方法。通过讨论未解决的挑战,包括偏见、鲁棒性、领域特异性和统一评估,本综述旨在为研究人员提供洞见,并倡导更公平和先进的NLG评估技术。
PROMETHEUS是一个在语言模型中引入细粒度评估能力的完全开源LLM,能够在配备适当的参考资料时展现出与专有模型相媲美的评估能力。