AirRAG是一种由阿里提出的检索增强生成(RAG)方法,旨在通过树状搜索激活大型语言模型(LLM)的内在推理能力。它特别针对复杂、知识密集型任务设计,通过五种基本推理动作(系统分析、直接回答、检索回答、查询转换、总结回答)并结合蒙特卡洛树搜索(MCTS)和自一致性验证,扩展解空间,处理复杂任务中的推理路径受限问题。该方法在处理知识密集型查询时表现出更高的灵活性和效率。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
SmolVLM是全球最小的视觉语言模型,能够处理多模态任务,包括图片描述、文档问答和基本视觉推理等。它具有256M参数,表现优异,适合在低资源设备上运行。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
本文调查了快速发展的指令调优 (IT) 领域的研究工作,这是增强大型语言模型 (LLM) 功能和可控性的关键技术。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
StableLM是Stability AI最新开源的大语言模型,目前开放的是3B和7B的版本,后续会开放更大规模的模型,适合商用。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
KnowNo是一个用于衡量和调整基于LLM的规划人员的不确定性的框架,帮助他们识别何时需要寻求外部帮助,提升自主决策能力。
EvolKit是一个创新框架,旨在自动增强用于微调大型语言模型(LLMs)指令的复杂性。
MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答(VQA)数据集,基于MIMIC-CXR数据库,旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案,适用于模型的训练和评估,支持多种视觉问答任务。
该项目研究了语言大模型如何理解情感并通过情感刺激进行强化,从而影响日常行为和互动。
本研究使用基准测试,将GPT-4及其多模式版本与人类在抽象和推理任务上进行了比较。结果显示,即便使用详细的单次提示和简化的图像任务,两个版本的GPT-4都未能达到人类水平的抽象推理能力。
u-sim是一个利用人工智能生成互动医学模拟场景的工具。用户可以创建自己的病例,通过提问和下达检查指令逐步推进场景,直到得出正确的诊断。它旨在为医疗专业人员提供一个实践和训练的平台,提高他们的诊断能力和临床技能。