多模态数据集官网 – 视觉与语言的预训练语料库

达摩院开源的视觉-语言预训练的语料库，包含从在线教学视频中提取的多模态数据，支持多种学科的学习和研究。
多模态数据集的特点:
1. 包含650万张图片
2. 包含8亿文本
3. 涵盖数学、物理、化学等多个基础学科
4. 基于2.2万小时的在线教学视频

多模态数据集的功能:
1. 用于训练视觉-语言模型
2. 支持多模态学习和研究
3. 可用于教育领域的应用
4. 为AI研究提供丰富的数据资源

相关导航

Chinese-Q-Bench开源项目 – 中文视觉问答与描述基准测试

质衡: 通用基础模型在底层视觉上的基准测试，包含中文版【底层视觉问答】和【底层视觉描述】数据集，以及中文提示下的图片质量评价。

Languify官网 – 创新的AI学习助手

Languify是一个创新的AI学习伴侣，允许学生进行类似于与Siri或Alexa对话的1对1教育互动。通过对话，AI提供量身定制的帮助、解释和资源，以提升学习效果。

4675-scifi开源项目 – 中文科幻小说的人工智能研究资源

一个包含大约4675本中文科幻小说的语料库，可以用于中文科幻小说的人工智能研究。

Super Teacher-为3官网 – 8岁孩子提供无限私教课程的应用

Super Teacher是一款应用程序，为3到8岁的儿童提供无限的阅读、数学、艺术、诗歌、科学等私人课程。它的设计比私人家教更有效，旨在通过互动的学习形式，让孩子们在积极参与中学习。应用根据孩子的技能和能力进行调整，确保课程的难易程度适中，提供个性化的学习体验，仿佛随时都有私人教师在身边。

WeLoveGPTs官网 – 定制GPT的集合，赋予你ChatGPT超能力

WeLoveGPTs是一个精心策划的定制GPT集合，旨在提供ChatGPT的超能力。用户可以添加所需的GPT以获得其强大功能。此外，每周日，用户还可以订阅新闻通讯，接收每周最佳的三个GPT推荐。

The Ultimate ChatGPT Guide官网 – 深入了解ChatGPT的各个方面

终极ChatGPT指南涵盖了ChatGPT的基础知识，包括其架构、能力和局限性。它还教授如何进行提示工程，掌握有效的提示、上下文和控制代码，并探索ChatGPT在写作、支持和翻译等实际应用中的用例。

EducatesAI官网 – 利用AI生成课程的教育平台

EducatesAI是一个通过人工智能帮助学生自动生成课程的平台，课程由虚拟教师呈现。同时，EducatesAI还提供实时讲座问答服务，旨在提升学习体验与效率。

Inquistory官网 – 实践探究式学习的工具

Inquistory 是一个旨在支持探究式学习的平台，提供AI工具，帮助教师快速生成课程计划，引导学生进行批判性思维，并评估他们对课程材料的理解。

RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

DrivingDojo Dataset开源项目 – 推动互动与知识驱动的驾驶世界模型

DrivingDojo Dataset旨在通过互动驾驶模拟和知识丰富的模型，推进自动驾驶领域的发展，为AI模型的训练和驾驶行为及场景研究提供支持。

E.T. Bench开源项目 – 开放事件级视频语言理解

E.T. Bench旨在实现开放事件级的视频语言理解，结合视频和语言数据，推动多模态学习的进展。

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

BEV-Perception开源项目 – 鸟瞰视图感知的资源与工具

关于鸟瞰视图感知的论文资源列表，包括3D目标检测、分割、在线地图和占据预测等，旨在为研究人员和开发者提供全面的工具和文献支持。

VLM-Visualizer-视觉开源项目 – 语言模型注意力可视化工具

VLM-Visualizer是一个视觉-语言模型注意力可视化工具，旨在通过结合语言模型和视觉变换器的注意力权重，生成输入图像上的注意力图，以直观展示模型在生成特定令牌时关注图像的哪些部分。

BIOMEDICA开源项目 – 生物医学图像与文献的开放资源

一个开放的生物医学图像-标题档案库、数据集和从科学文献中衍生的视觉-语言模型，旨在帮助研究人员更好地理解和利用生物医学图像及相关文献信息

Awesome-Prompt-Adapter-Learning-for-Vision-Language-Models-视觉开源项目 – 语言模型的Prompt/Adapter学习工具

为视觉-语言模型（例如CLIP）提供精心策划的Prompt/Adapter学习方法列表，包含最新的研究进展和代码实现，促进模型的高效学习和应用

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。

Awesome Remote Sensing Foundation Models开源项目 – 遥感基础模型论文资源列表

该项目提供遥感基础模型相关论文的资源列表，涵盖遥感视觉、视觉-语言、生成式、位置和音频等多个方向的模型，旨在为研究人员提供全面的参考和支持。

NoLA官网 – 无标签图像分类AI解决方案

NoLA是由NOLA AI, Inc.开发的人工智能项目，专注于通过大型语言模型和预训练视觉模型实现无标签图像分类。该项目显著减少了对标注数据的依赖，利用类似CLIP的视觉-语言模型进行零样本学习，在提升分类准确性的同时降低企业成本。其技术核心结合了自然语言处理与计算机视觉，适用于数据稀缺场景，支持通过文本描述直接分类图像。

Maestro开源项目 – 加速多模态模型微调的工具

一个专为加速多模态模型（如 PaliGemma、Florence-2 和 Qwen2-VL）微调的工具，简化配置、数据加载、重现性和训练循环的设置。

Multimodal datasets for NLP Applications开源项目 – 为NLP提供丰富的多模态数据资源

该项目提供了一个面向NLP应用的多模态数据集列表，旨在为研究者和开发者提供丰富的资源，以支持多模态自然语言处理任务的研究和应用。

多模态教科书开源项目 – 视觉与语言的完美结合

一种用于视觉-语言预训练的多模态数据集，通过将图像和文本交错排列，提供丰富的基础知识，帮助模型更好地理解和生成多模态内容