大语言模型优化

LongSpec开源项目 – 高效解码长文本场景

LongSpec开源项目 – 高效解码长文本场景

长文本场景下的高效解码方案，让大语言模型推理不再卡顿。

大语言模型优化长文本解码高效推理

OpenRLHF-M开源项目 – 高性能的RLHF框架

OpenRLHF-M开源项目 – 高性能的RLHF框架

一个简单易用、可扩展且高性能的强化学习人类反馈（RLHF）框架。它能解决大语言模型对齐和优化的问题，让模型更好地理解和生成人类期望的内容。

Hugging Face兼容RLHF大语言模型优化强化学习框架

LLM GPU Helper官网 – 优化大语言模型的GPU资源管理

LLM GPU Helper 旨在通过智能GPU分配和用户友好的界面，简化大语言模型的部署和性能管理，适用于数据科学家、AI研究人员和开发者。它提供了一系列先进功能，帮助用户高效且经济地利用强大的GPU基础设施。

AI研究工具GPU资源管理大语言模型优化数据科学家工具

GPT Self-Supervision for a Better Data Annotator-自监督框架提升数据标注质量

来自悉尼大学的研究团队提出了一种通过自监督生成标注的框架，旨在解决数据标注任务中的成本、偏见、评估和标注难度等问题。

大语言模型优化数据标注质量提升自监督数据标注框架

Chinese-Guanaco开源项目 – 中文低资源量化训练/部署方案

Chinese-Guanaco开源项目 – 中文低资源量化训练/部署方案

中文Guanaco(原驼)大语言模型，支持QLora量化训练，可在本地CPU/GPU上高效部署，旨在优化大语言模型的效率，适用于低资源环境的训练和应用。

QLora量化训练中文低资源量化训练大语言模型优化本地部署

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot是亚马逊开源的多模态链式思维（Multi-modal Chain of Thought）模型，旨在提升大语言模型在复杂任务中的表现。它支持多模态输入，包括文本和图像，并通过链式思维增强推理能力，特别针对复杂任务进行了优化的架构设计，方便研究人员和开发者进行二次开发。

复杂任务推理多模态链式思维模型大语言模型优化开源项目

EET开源项目 – 高效易用的Transformer推理解决方案

EET开源项目 – 高效易用的Transformer推理解决方案

EET是一个针对大型NLP模型的可扩展推理解决方案，旨在提供高性能的推理支持，特别是针对Transformer结构的大模型，同时支持长序列的场景，易于集成和使用。

NLP模型PyTorch插件Transformer推理高性能推理解决方案

LLaMA-Adapter开源项目 – 高效的模型适配器，支持多模态功能

LLaMA-Adapter开源项目 – 高效的模型适配器，支持多模态功能

LLaMA-Adapter V2 是一个高效的模型适配器，能够在短时间内完成训练并支持多模态功能，包括图像解释和问答。

LLaMA-Adapter图像解释多模态功能快速训练

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

低资源设备运行图像问答多模态任务处理视觉语言模型

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4是一款结合视觉与语言的大模型，能够基于图片内容生成描述、回答问题，甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色，可识别图像细节、物体关系，并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本，提供强大的自然语言处理能力，适用于多种AI应用场景，包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。

MiniGPT-4图像与文本结合应用图像描述生成多模态信息处理

Instruction Tuning for Large Language Models: A Survey-指令调优的研究综述

本文调查了快速发展的指令调优 (IT) 领域的研究工作，这是增强大型语言模型 (LLM) 功能和可控性的关键技术。

交互提升大型语言模型指令调优监督训练

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。

LLaVA框架图像理解多模态视觉语言模型开源项目

StableLM开源项目 – 开源的大语言模型，支持商用

StableLM开源项目 – 开源的大语言模型，支持商用

StableLM是Stability AI最新开源的大语言模型，目前开放的是3B和7B的版本，后续会开放更大规模的模型，适合商用。

内容创作商用AI模型对话系统开源大语言模型

LLaVA开源项目 – 轻量级多模态GPT-4助手

LLaVA开源项目 – 轻量级多模态GPT-4助手

LLaVA是一个轻量级的多模态大模型推理框架，结合了视觉和语言理解能力，基于LLaMA架构和视觉Transformer，支持图像+文本的高效处理。它能够理解和分析图像内容，适用于视觉问答、图片理解、AI助理等多种任务。

LLaVA图像描述生成图像问答多模式GPT-4助理

Ferret-一款出色的多模态大型语言模型

Ferret是来自苹果的新型多模态大型语言模型，擅长图像理解和语言处理，尤其在理解空间参考方面展现了显著的优势。

图像理解多模态交互多模态大型语言模型空间参考理解

KnowNo开源项目 – 衡量和调整不确定性的框架

KnowNo是一个用于衡量和调整基于LLM的规划人员的不确定性的框架，帮助他们识别何时需要寻求外部帮助，提升自主决策能力。

LLM集成不确定性框架机器人规划统计保证

EvolKit开源项目 – 自动增强指令复杂性的框架

EvolKit开源项目 – 自动增强指令复杂性的框架

EvolKit是一个创新框架，旨在自动增强用于微调大型语言模型（LLMs）指令的复杂性。

开源LLM微调大型语言模型指令设计自动增强指令复杂性

MIMIC-CXR-VQA开源项目 – 医学视觉问答任务的数据集

MIMIC-CXR-VQA开源项目 – 医学视觉问答任务的数据集

MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答（VQA）数据集，基于MIMIC-CXR数据库，旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案，适用于模型的训练和评估，支持多种视觉问答任务。

MIMIC-CXR医学图像理解医学视觉问答数据集模型训练与评估

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3