simple_GRPO 是一个简单的 GRPO(Generative Reinforcement Learning for Policy Optimization)实现,旨在复现类似 r1 的大型语言模型(LLM)思维过程。该项目代码简洁,依赖极少,能够快速上手,并支持分离式参考模型,允许在不同GPU上运行以节省显存。训练过程仅需1小时,用户可快速观察到模型的“顿悟时刻”。
最小 PyTorch 实现的 GPT-2 和 Llama,旨在简化代码以便更容易理解和使用,并且能够在短时间内训练出性能良好的自然语言生成系统。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
GPT4视觉用例集锦是一个集合了多种视觉任务的项目,基于最新的GPT-4模型,提供丰富的示例和用例,旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口,支持图像分类、对象检测、图像生成和视觉问答等功能,适用于广泛的应用场景。
Macaw-LLM是一项探索性的努力,它通过无缝地结合图像、视频、音频和文本数据,开创了多模态语言建模。
Khoj 是一款完美融合本地文档和在线搜索的 AI 第二大脑,旨在通过智能检索和对话,让你以更高效的方式管理和利用自己的知识和信息。它支持多种文件格式,能够连接个人知识库,提供强大的搜索引擎,适用于多种平台,并且是完全开源的。
Gemini AI是一个强大的人工智能平台,提供多种交互方式,用户可以通过动态对话、自由格式提示以及结构化提示与AI进行互动,探索AI的潜力和创新应用。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
Eroale是一个集成多种人工智能功能的平台,提供AI聊天、视觉识别、图像聊天、PDF聊天、内容重写、博客创作向导等服务,并包含超过72个预制模板,支持Dall-E3、Stable、文本转语音、语音转文本、AI抄袭检测、代码生成等功能。
ChatChit AI是一个集智能对话、图像生成、语音转录、图像理解和媒体下载于一体的聊天助手,旨在提升WhatsApp的使用体验,帮助用户更高效地沟通和分享。
Study AI是一个创新的平台,通过强大的AI模型,提供定制化和详细的答案,彻底改变学习和研究的方式。用户只需拍照提问或输入提示,AI模型便会为其生成全面的答案。
iAsk 是一个智能助手,能够回答有关您文件和链接的问题。用户只需在 Apple 设备上安装该应用并授权必要的权限,就可以使用语音、相机和图像来询问文件和链接的信息。
Imagine Studios Ai是一个订阅服务,旨在通过简单的步骤生成引人注目的内容,适用于各种创作需求。
AssignmentGPT 是一个多功能平台,提供作业帮助、数学问题解决、图像上传求解、AI 制图、考试准备、面试练习以及教师机器人等功能,旨在帮助学生提高学习效率。
StableVicuna是第一个通过强化学习人类反馈(RHLF)进行训练的大型开源聊天机器人,基于Meta的LLaMA模型,利用从ShareGPT收集的用户共享对话进行训练,旨在提供更自然和人性化的对话体验。