mllm-mmrotate是一个专注于空中目标检测的项目,通过多模态语言模型(MLLM)为无人机和其他空中设备提供精确的物体识别能力。项目引入规范化方法将检测输出转换为与MLLM兼容的文本输出,并提出新的评估方法以确保与传统检测器的公平比较。支持光学图像(如DOTA-v1.0、DIOR-R)和SAR图像(如SRSDD、RSAR),扩展了在不同数据类型上的应用潜力。
WALDO是一款基于YOLO-v8大模型和合成数据训练的AI检测模型,专为无人机领域的低空可识别目标检测而设计。它能够在高空和低空图像中高效检测多种目标,如轻型车辆、人员、建筑物、公用设施杆、船只、自行车、集装箱、卡车、储气罐、挖掘机、太阳能电池板、巴士等。该模型已成功应用于灾害评估中的失踪人员搜索、野生动物保护区中的入侵监测、停车场和交通流量管理中的人数和车辆计数、建筑工地和基础设施的远程监控等场景。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型