通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
小型语言模型综述资源集:旨在全面调研小型语言模型的技术、应用、效率以及与大型语言模型的协作和可信度
llm-viz是一个用于GPT风格大语言模型的三维可视化工具,能够帮助用户深入理解模型的内部结构及其行为。通过交互式的方式,用户可以探索模型的输入、输出以及权重分布,提供多种视角和缩放功能以进行详细分析。
一个探索Flux Dev模型层级效果的工具,允许用户通过修改不同层的强度来研究模型行为,支持注意力层、双重块、单一块等多种层级的调整与实验
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
一个包含多个样本的基准测试项目,用于大语言模型的测试和评估,旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本,支持自定义测试用例,易于与现有AI项目集成,方便进行系统性评估。
《动手学大模型》是一本开源书籍,共12章节,涵盖从基础到高级的大语言模型内容,包括语言模型介绍、文本分类、提示词工程、语义搜索、微调模型、多模态模型等。书中包含大量代码示例,可直接在Colab运行,帮助读者更好地理解和应用大语言模型。此外,书中还提供了丰富的实践代码,旨在帮助读者掌握大型语言模型的使用和应用,适合初学者和有经验的开发者。
Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型,以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术,分析大语言模型的长期潜在威胁,确保其安全性。
FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
该项目汇集了关于视觉生成模型评估的相关作品,包括评估指标、模型和系统的详细信息。
mjc_viewer是一个基于浏览器的3D查看器,专为MuJoCo设计,支持实时可视化仿真,允许用户交互式操作3D模型,具有用户友好的界面和丰富的渲染选项。