Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型,参数量为1.8B,能够在消费级显卡(如1080Ti)上训练和运行。它支持多种视觉语言任务,包括处理图片中的文字、图表、公式,以及对象检测、图像描述、视觉问答等,同时支持中英文。通过改进的视觉词汇表增强视觉感知能力,Vary-toy在多个数据集上的表现与7B级模型相当甚至更好,且计算开销更低。
Ultralytics YOLO 是一款基于 YOLO 系列的尖端对象检测和追踪模型,集成了计算机视觉和深度学习的最新进展。它继承了前代 YOLO 版本的成功,并引入了新的架构和训练流程,提升了实时推理速度、准确性和泛化能力。该模型适用于广泛的任务,包括对象检测、实例分割、图像分类和姿态估计。YOLO11 经过 COCO、ImageNet 和 DOTAv1 等大型数据集的训练,提供了卓越的准确度和速度。
Matching Anything By Segmenting Anything(通过分割任意内容匹配任意内容),是一种用于稳健实例关联学习的新方法,能够在不同领域中匹配视频中的任何对象而无需跟踪标签。
CoreNet 是苹果公司开发的开源深度神经网络工具包,支持训练多种标准和新颖的小型和大型模型。它适用于对象分类、对象检测和语义分割等多种任务,允许研究人员和工程师使用基础模型(如 CLIP 和 LLM)进行高效的深度学习研究。
GPT4视觉用例集锦是一个集合了多种视觉任务的项目,基于最新的GPT-4模型,提供丰富的示例和用例,旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口,支持图像分类、对象检测、图像生成和视觉问答等功能,适用于广泛的应用场景。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
Dataoorts GPU Cloud专为AI开发者构建,提供GC2和T4s GPU实例,以助力开发和部署任务。其GPU实例具有高性价比,确保每个人都能使用强大的计算能力。
Lobe 是一款免费且易于使用的应用程序,用户可以训练自定义机器学习模型并将其融入自己的应用中。它提供了可视化编程界面,支持多种任务,如图像分类、目标检测和数据分类。用户只需下载应用,收集并标记图像或数据,Lobe 会基于标记的示例自动训练模型,用户可以使用摄像头或图像来测试模型,并在改进预测后将其导出到应用中进行部署。
DeSpam是一个隐私优先、零日志的文本审查API,能够识别有毒、不当、威胁、攻击性、色情和垃圾评论,确保用户信息的保护。其零日志政策和零存储机制进一步保障了用户的隐私。
Bigjpg 是一款前沿的图像放大工具,利用深度卷积神经网络(DCNNs)进行图像放大,保持高质量的结果。它为需要放大图像而不牺牲清晰度和细节的用户提供了可靠的解决方案。
Jaiqu是一款基于人工智能的工具,能够自动将任何JSON格式化为多种架构,支持高效处理和用户友好的接口,适用于各种数据处理需求。
Imagine Studios Ai是一个订阅服务,旨在通过简单的步骤生成引人注目的内容,适用于各种创作需求。
Hugging Face是一个专注于人工智能的开放源代码平台,旨在通过开放科学推进和普及人工智能技术。该项目提供了一系列工具和库,帮助开发者和研究人员轻松构建和应用自然语言处理(NLP)模型。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
由来自北航、中山大学、浙大和华东师范的团队合作开发的国产AI小镇,AgentSims能够模拟多种智能体的行为,支持复杂环境的交互,具备可扩展的架构设计,并提供丰富的API接口,旨在为研究和开发提供强大的支持。
Spice.ai是一个预装Web3数据的平台,旨在加速下一代智能软件的开发。开发者可以结合Web3数据、代码和机器学习,构建数据驱动和AI驱动的应用程序。该平台提供高质量、丰富的数据集,并提供开发者友好的SDK,方便集成。用户可以使用SQL查询Web3数据,并进行过滤和聚合。此外,Spice.ai还支持无服务器功能,并提供一个可扩展到PB级的数据平台,适用于实时和时间序列数据。
该项目探索文本到图像生成的新方法,重点是集成多个LoRA以创建高度定制和详细的图像。
Graphium是一个专注于图表示学习的深度学习库,特别用于处理现实世界中的化学任务。它具备最先进的图神经网络架构,提供可扩展的API,并支持丰富的分子特征化功能,能够有效应对复杂的化学问题。