长文本场景下的高效解码方案,让大语言模型推理不再卡顿。
一个简单易用、可扩展且高性能的强化学习人类反馈(RLHF)框架。它能解决大语言模型对齐和优化的问题,让模型更好地理解和生成人类期望的内容。
LLM GPU Helper 旨在通过智能GPU分配和用户友好的界面,简化大语言模型的部署和性能管理,适用于数据科学家、AI研究人员和开发者。它提供了一系列先进功能,帮助用户高效且经济地利用强大的GPU基础设施。
来自悉尼大学的研究团队提出了一种通过自监督生成标注的框架,旨在解决数据标注任务中的成本、偏见、评估和标注难度等问题。
中文Guanaco(原驼)大语言模型,支持QLora量化训练,可在本地CPU/GPU上高效部署,旨在优化大语言模型的效率,适用于低资源环境的训练和应用。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
SmolVLM是全球最小的视觉语言模型,能够处理多模态任务,包括图片描述、文档问答和基本视觉推理等。它具有256M参数,表现优异,适合在低资源设备上运行。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
本文调查了快速发展的指令调优 (IT) 领域的研究工作,这是增强大型语言模型 (LLM) 功能和可控性的关键技术。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
StableLM是Stability AI最新开源的大语言模型,目前开放的是3B和7B的版本,后续会开放更大规模的模型,适合商用。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
KnowNo是一个用于衡量和调整基于LLM的规划人员的不确定性的框架,帮助他们识别何时需要寻求外部帮助,提升自主决策能力。
EvolKit是一个创新框架,旨在自动增强用于微调大型语言模型(LLMs)指令的复杂性。
MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答(VQA)数据集,基于MIMIC-CXR数据库,旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案,适用于模型的训练和评估,支持多种视觉问答任务。