AI交流(进群备注:LiveBench)

LiveBench 是一个为大型语言模型(LLM)设计的基准测试平台,专注于提供无污染的测试数据和客观评分。它涵盖数学、编码、推理、语言理解、指令遵循和数据分析等多个领域,问题设计具有挑战性,分数较为可靠,确保公平评估 AI 模型的表现。每月更新问题,确保测试数据未被模型训练所包含,并通过自动评分系统实现客观评分。
LiveBench的特点:
- 1. 无污染测试数据:每月发布基于近期数据集、arXiv 论文、新闻文章和 IMDb 电影简介的新问题,确保测试数据未被模型训练所包含。
- 2. 客观评分:每个问题都有可验证的客观标准答案,支持自动准确评分,无需依赖 LLM 评判。
- 3. 多样且具挑战性的任务:包括 18 个多样化任务,分为 6 大类别:数学、编码、推理、语言、指令遵循和数据分析。
LiveBench的功能:
- 1. 研究人员和开发者可以通过电子邮件或 GitHub 仓库提交他们的模型,请求对模型进行评估。
- 2. 数据集可在 Hugging Face 平台获取,供研究使用。
- 3. 用户可以通过官网查看当前模型的排名和性能比较,了解行业趋势。
相关导航

LLaMA-VID 是一种开源的多模态大模型,专门设计用于处理长时间的视频内容,如电影。它通过使用视觉语言模型(Vision Language Models, VLMs)来结合计算机视觉和自然语言处理,从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记(Token)来表示每一帧图像或视频:一个上下文标记(Context Token)用于编码整个图像或视频中最相关或最重要的部分,另一个内容标记(Content Token)用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息,并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频,并在多个视频榜单上实现了 SOTA(State of the Art)表现。

MiniMind 是一个开源 AI 项目,旨在从零开始,以极低的成本和极短的时间训练出超小语言模型。项目涵盖了从数据集清洗到模型训练的全过程,并提供了多种先进的算法和模型结构。通过仅需 3 块钱成本和 2 小时,即可训练出 25.8M 的超小语言模型,最小版本体积是 GPT-3 的 1/7000,适合普通个人 GPU 快速训练。项目还拓展了视觉多模态的 VLM: MiniMind-V,所有核心算法代码均从 0 使用 PyTorch 原生重构,不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现,也是一个入门 LLM 的教程。