LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
BMTools是面壁智能开发的一个大模型工具学习平台,专注于问答系统的构建和训练,填补了国产大模型在该领域的空白,支持多种中文应用。
GPT4视觉用例集锦是一个集合了多种视觉任务的项目,基于最新的GPT-4模型,提供丰富的示例和用例,旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口,支持图像分类、对象检测、图像生成和视觉问答等功能,适用于广泛的应用场景。
Yi是一个专为高效语言模型设计的开源框架,支持从零开始训练的大型语言模型。它包含两款双语模型Yi-6B及Yi-34B,均自研训练,参数规模分别为6B和34B。Yi通过优化算法与资源管理,提供从实验到部署的完整流程,支持多种语言的文本生成、对话系统和问答任务。
StableLM是Stability AI最新开源的大语言模型,目前开放的是3B和7B的版本,后续会开放更大规模的模型,适合商用。
Catbird.ai 是一个多模型图像生成工具,允许用户通过单一提示同时从多个AI模型生成图像,提供丰富的输出选项,适用于各种用途。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
Gemini是由谷歌DeepMind开发的生成性人工智能聊天机器人,能够基于大量公开数据进行训练,能够与用户进行人类般的对话并生成文本,适用于多种问题的回答和任务的执行。
基于Flow-Matching的生成模型实现库,提供了多种流匹配生成模型的参考实现,包括RectFlow、LADD、Shortcut等模型,支持文本生成图像、图像反演等功能,并提供了多种求解器和优化方法。
Enhance AI是一个终极平台,利用AI创建和交互数字图像。它提供文本转图像、图像转图像、修补和放大等功能,用户可以轻松将自己的创意转化为惊艳且真实的图像。
ChatGLM-6B是清华大学开发的一个开源双语对话语言模型,基于General Language Model (GLM)架构,具有62亿参数。它支持中英双语对话,并具备图像理解的多模态功能。模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,旨在提供高质量的对话生成和自然语言处理能力。结合模型量化技术,可在消费级显卡上本地部署(INT4量化级别下最低只需6GB显存),并针对中文问答和对话进行了优化。
RAGchain是一个用于开发支持大型语言模型(LLM)的高级检索增强生成(RAG)工作流的框架,提供了灵活的开发选项和易于集成的特点,帮助开发者构建高效的智能应用。
WebGLM旨在利用拥有100亿参数的通用语言模型(GLM)提供高效且经济实惠的网络增强问答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中,来改善现实世界应用程序部署。
Vision是印度最佳的基础AI模型,以独特的方式构建,减少训练和计算资源,而不影响出色的结果。该强大模型能够生成引人入胜的文本和生动的图像。
高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 'GPT slop')的生成概率