MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

MiniMind-V的特点:

1. 从0开始，仅用1.3块钱成本 + 1小时即可训练出26M参数的超小多模态视觉语言模型
2. 包含VLM大模型的极简结构
3. 包含数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码
4. 开源VLM模型的最小实现
5. 入门视觉语言模型的简明教程

MiniMind-V的功能:

1. 用于训练超小多模态视觉语言模型
2. 用于学习和理解VLM大模型的极简结构
3. 用于数据集清洗、预训练和监督微调的全过程实践
4. 作为开源VLM模型的最小实现进行研究和开发
5. 作为入门视觉语言模型的学习教程

相关导航

Data Prep Kit开源项目 – 开源数据准备工具

Data Prep Kit 是一个开源项目，旨在为大型语言模型应用程序的开发者提供高效的数据准备和处理工具。该项目支持多种规模的数据处理，从个人电脑到数据中心级别，兼容代码和自然语言等多种数据模式，帮助用户简化数据准备流程。

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

CMU_MATH-AIMO开源项目 – AI数学奥林匹克竞赛的开源项目

卡内基梅隆大学团队在首届AI数学奥林匹克竞赛(AIMO)中获得亚军的开源项目，包含完整的训练数据集(AIME、AMC、Odyssey-Math)、验证集、模型微调代码和数据收集脚本，为研究AI解决数学问题提供了宝贵资源

Robopoker开源项目 – 德州扑克AI学习工具

Robopoker是一款用Rust编写的德州扑克AI工具，旨在帮助玩家学习、分析和解决无限制德州扑克问题。它基于蒙特卡洛反事实遗憾最小化算法，支持层级K均值聚类，能够高效处理复杂牌局，并且性能卓越，手牌评估速度远超传统算法。

explain-source-code-by-chatgpt开源项目 – 使用ChatGPT解释Go源码

该项目利用ChatGPT技术，提供对Go语言核心源码的详细解释，涵盖每个文件、变量、结构体和方法的作用，帮助开发者更好地理解代码。

ChatGLM-6B-QLoRA开源项目 – 高效微调与量化ChatGLM模型

ChatGLM-6B-QLoRA项目利用peft库实现了对chatGLM-6B和chatGLM2-6B模型的4bit QLoRA高效微调，并提供了模型的合并和量化功能。该项目包含了完整的训练和推理流程，以及推理性能测试，旨在优化模型存储和计算资源的使用。

Fluent UI Emoji开源项目 – 微软的emoji表情库，提供多种格式

Fluent UI Emoji是微软推出的一个emoji表情库，包含多种3D和2D表情，支持多种格式（包括PNG和SVG），并且基于MIT协议开源，方便开发者在各种应用和网页中集成。该库提供丰富的表情选择，旨在提升用户体验和交互性。

Fast3R开源项目 – 高效大规模3D重建

Fast3R是一个旨在通过单次前向处理实现1000+张图像的3D重建的项目，使得大规模3D重建变得轻松高效。

CheXagent-用于胸部X光片解读的基础模型

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

GitHub Desktop开源项目 – 简化Git操作的桌面应用

GitHub Desktop是一个开源的、基于Electron开发的桌面应用程序，用TypeScript编写，并使用React框架。它旨在简化Git操作，提供直观的图形界面，支持Windows和Mac系统。用户可以通过点击按钮完成Git操作，无需使用命令行。项目在GitHub上收获了19.8K star。

FlashMLA开源项目 – 高效Hopper GPU MLA解码内核

FlashMLA是专为Hopper架构GPU设计的高效MLA解码内核，特别针对可变长度序列服务进行了优化。它结合了FlashAttention 2&3和cutlass两个加速项目的技术，显著提升了H800 GPU的计算性能。支持BF16精度，采用块大小为64的分页kvcache，使用CUDA 12.6，在H800 SXM5上实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能。

Intel Extension for Transformers

Intel Extension for Transformers 是一个开源项目，旨在使客户端 CPU 上的大型语言模型（LLM）微调成为可能，特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调，适用于笔记本电脑环境，并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容，支持 4 位推理，并利用 Intel 神经压缩器提供丰富的模型压缩技术，如量化、剪枝和蒸馏，显著提高了英特尔平台上的推理效率。此外，它还支持自动化的仅限权重的 INT4 量化流程，兼容多个流行的大语言模型，如 Llama2、Llama 和 GPT-NeoX。

MME-CoT开源项目 – 多模态大模型推理能力评估基准

MME-CoT是一个为多模态大模型提供全面推理能力评估的基准测试工具。它覆盖了数学、科学、OCR等六大领域，通过提出三项新指标，深度剖析模型的推理质量、鲁棒性和效率，揭示模型在视觉推理任务中的表现，从而助力多模态模型的发展。

SmallTalk官网 – 一个开源的AI语言学习应用

SmallTalk是一个开源的AI语言学习网页应用，支持所有主流浏览器，包括移动端和桌面端。它具备语音功能，用户体验流畅，目前仍处于早期阶段。

NeuralKG开源项目 – 基于PyTorch Lightning的知识图谱表示学习框架

NeuralKG是一个基于PyTorch Lightning开发的知识图谱表示学习框架，集成了多种知识图谱表示学习模型。它支持传统知识图谱表示学习模型、基于图神经网络的知识图谱表示学习模型以及基于规则的知识图谱表示学习模型。NeuralKG采用模块化设计，便于个性化和维护，能够高效、可扩展地进行知识图谱表示学习任务。

暂无评论

暂无评论...