LLMArena是一个易于使用的工具,可以帮助用户并排比较多个大型语言模型(LLM),并美观地分享这些比较。用户可以选择2到10个LLM进行对比,生成直观的比较结果。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
Model Royale是一个允许用户比较各种语言模型(LLMs)的平台,帮助用户识别最适合其特定需求的模型。用户可以在不同模型中输入相同的提示,并根据响应时间、token使用量和响应质量分析结果。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
一个可以在笔记本电脑运行的LLM试炼场,支持来自多个机构的任意模型,包括OpenAI、Anthropic、Cohere、Forefront、HuggingFace、Aleph Alpha和llama.cpp等。
Skill-it是一个用于理解和训练大语言模型(LLM)的数据驱动技能框架,通过选择合适的训练数据来提升下游模型在不同任务上的性能。
vizGPT是一个数据可视化平台,通过聊天界面将上下文数据转化为互动式可视化图表,利用先进的模型生成有意义的视觉表现。