Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
DreamSampler结合了扩散采样和评分蒸馏技术,旨在实现图像处理中的图像生成与操控。该项目可以通过生成模型实现图像生成,并运用基于评分的技术对现有图像进行操控,提供了强大的图像编辑和生成能力。
AI Employe是一个AI优先的RPA Chrome扩展,作为浏览器内的虚拟助手,能够自动化重复的在线任务,具有人类般的智能。用户可以通过在浏览器中创建工作流程,向AI展示任务,AI将执行这些任务,包括需要人类智力的复杂任务。
Claude 3是一个为工作而设计的下一代人工智能,经过训练以确保安全性和准确性。用户可以通过claude.ai与Claude互动,分析图像并处理长文档。对于开发者和企业,提供API访问以便在AI基础设施上构建应用。
Janus是一个多模态理解和生成一体的模型,能够同时理解图片内容并生成新图像。它通过解耦设计来满足理解和生成任务对视觉编码器的不同需求,采用统一的自回归变换器架构处理各种模态的输入。
OpenChat是一个基于LLaMA架构的开源大语言模型,通过6K GPT-4对话数据进行微调,旨在在推理效率和表现力上达到与ChatGPT相当的水平。它利用自然语言对话数据和强化学习方法,在混杂质量数据下进行训练,克服了labels标注难题,是开源领域内表现最出色的模型之一。
ChatGLM-6B是清华大学开发的一个开源双语对话语言模型,基于General Language Model (GLM)架构,具有62亿参数。它支持中英双语对话,并具备图像理解的多模态功能。模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,旨在提供高质量的对话生成和自然语言处理能力。结合模型量化技术,可在消费级显卡上本地部署(INT4量化级别下最低只需6GB显存),并针对中文问答和对话进行了优化。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。
BLIP是一个强大的模型,能够根据输入的图片生成相应的文字描述,并且可以回答一些与图片内容相关的简单问题。
MATLAB是工程师和科学家用于多种应用的全面编程和数值计算平台,适用于数据分析、算法开发和模型创建,特别是在人工智能领域。
gptme是一款可以在本地终端运行的个人AI助手,能够编写代码、使用终端、浏览网页和查看图像。支持多种操作和主流LLM提供商。
在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B上定义的交互分割任务和其他分割任务(如全景分割和部件分割)上多任务联合训练的相互促进作用。
Infini-Megrez是全球首个端侧全模态理解模型,能够同时处理图像、音频和文本数据,具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值,支持场景理解、OCR、中英文语音输入及多轮对话等功能,适用于多种复杂场景下的数据理解和分析。
SmartAI是一个集合了多种实用的免费人工智能工具的平台,旨在帮助用户提高工作效率和生活品质。该项目提供了多种功能,适用于个人和企业用户,涵盖了文本处理、数据分析、图像识别等多个领域。
基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型,建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。