AI交流(进群备注:WALDO)

WALDO是一款基于YOLO-v8大模型和合成数据训练的AI检测模型,专为无人机领域的低空可识别目标检测而设计。它能够在高空和低空图像中高效检测多种目标,如轻型车辆、人员、建筑物、公用设施杆、船只、自行车、集装箱、卡车、储气罐、挖掘机、太阳能电池板、巴士等。该模型已成功应用于灾害评估中的失踪人员搜索、野生动物保护区中的入侵监测、停车场和交通流量管理中的人数和车辆计数、建筑工地和基础设施的远程监控等场景。
WALDO的特点:
- 1. 基于YOLO-v8大模型训练,检测精度高
- 2. 支持多种目标类别检测,涵盖广泛的低空目标
- 3. 适用于从30英尺到卫星图像的不同高度范围
- 4. 开源模型,允许用户自由部署和修改
- 5. 提供多种优化版本,适合边缘设备运行
WALDO的功能:
- 1. 灾害恢复中的失踪人员搜索
- 2. 野生动物保护区中的入侵监测
- 3. 停车场和交通流量管理中的人数和车辆计数
- 4. 建筑工地和基础设施的远程监控
- 5. 无人机避障和安全飞行
- 6. 交通流量管理和拥堵监测
- 7. 人群计数和密度分析
- 8. AI艺术创作中的目标检测
相关导航

LLaVA-NeXT官网 – 多模态视觉语言模型
LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别是在视觉推理、OCR(光学字符识别)和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率(最高达 672x672、336x1344、1344x336)以及改进视觉指令调整数据集,显著增强了模型性能。它还支持更大的语言模型,如 Mistral-7B 和 Nous-Hermes-2-Yi-34B,进一步提升了其能力。LLaVA-NeXT 的训练成本低,仅需约 32 个 GPU 运行一天,使用不到 100 万视觉指令调整样本,总训练数据为 131.8 万样本,计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手,成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎,代码、数据和模型均可公开访问,得到了 A16Z 开源 AI 资助计划的支持。
暂无评论...