WALDO开源项目 – 无人机低空目标检测AI模型

WALDO是一款基于YOLO-v8大模型和合成数据训练的AI检测模型，专为无人机领域的低空可识别目标检测而设计。它能够在高空和低空图像中高效检测多种目标，如轻型车辆、人员、建筑物、公用设施杆、船只、自行车、集装箱、卡车、储气罐、挖掘机、太阳能电池板、巴士等。该模型已成功应用于灾害评估中的失踪人员搜索、野生动物保护区中的入侵监测、停车场和交通流量管理中的人数和车辆计数、建筑工地和基础设施的远程监控等场景。

WALDO的特点:

1. 基于YOLO-v8大模型训练，检测精度高
2. 支持多种目标类别检测，涵盖广泛的低空目标
3. 适用于从30英尺到卫星图像的不同高度范围
4. 开源模型，允许用户自由部署和修改
5. 提供多种优化版本，适合边缘设备运行

WALDO的功能:

1. 灾害恢复中的失踪人员搜索
2. 野生动物保护区中的入侵监测
3. 停车场和交通流量管理中的人数和车辆计数
4. 建筑工地和基础设施的远程监控
5. 无人机避障和安全飞行
6. 交通流量管理和拥堵监测
7. 人群计数和密度分析
8. AI艺术创作中的目标检测

相关导航

mllm-mmrotate开源 – 空中目标检测的多模态语言模型基准

mllm-mmrotate是一个专注于空中目标检测的项目，通过多模态语言模型（MLLM）为无人机和其他空中设备提供精确的物体识别能力。项目引入规范化方法将检测输出转换为与MLLM兼容的文本输出，并提出新的评估方法以确保与传统检测器的公平比较。支持光学图像（如DOTA-v1.0、DIOR-R）和SAR图像（如SRSDD、RSAR），扩展了在不同数据类型上的应用潜力。

Evoke官网 – 简化AI模型云托管

Evoke是一个平台，允许开发者和企业在云端托管AI模型，并通过API访问，省去昂贵的云设置成本。用户可以轻松上传AI模型，并高效地进行AI应用开发。

Grok-1开源项目 – 开源的AI文本模型

Grok-1 是一个开源的AI模型，基于大量文本数据进行训练，未针对特定任务进行微调。

Phi-4模型 – 小型语言模型，推理和数学能力出色

Phi-4 是微软研究院开源的一个小型语言模型，参数量仅140亿，但在多个基准测试中表现出色，可能超过OpenAI的GPT-4o以及同类顶级开源模型如Qwen 2.5-14B和Llama-3.3-70B。其训练数据包括高质量的合成数据，涵盖50多种数据集，生成约4000亿未加权tokens。采用监督微调（SFT）和直接偏好优化（DPO）技术，特别在数学竞赛相关任务中展现强大推理能力。

LongWriter开源项目 – 超长文本生成AI模型

LongWriter是由清华大学和智普联合开源的一种超长输入、超长输出的AI模型，旨在通过超长上下文输入和超长答案输出来确保正确的答案隐藏在输出中。该模型通过构建包含更长文本的高质量训练数据集，显著提升了模型的长文生成能力。LongWriter开源了两个模型：THUDM/LongWriter-llama3.1-8b和THUDM/LongWriter-glm4-9b，并提供了试用空间进行测试。该模型能够生成连贯、逻辑性强的长篇文章，致力于释放长上下文LLM的10,000+字生成能力。

Planck Network官网 – 让闲置计算能力变现

Planck Network 通过一个直观的应用程序，让用户利用闲置的计算能力赚钱，同时为开发者提供一个经济实惠的平台，开放源代码的 AI 模型，以构建最具创新性的 AI 应用。

Ola开源 – 全能多模态语言模型

Ola是一个开源的全能多模态语言模型，旨在打破多模态理解的边界，支持文本、图像、视频和音频的全面理解。它采用渐进式模态对齐策略（PMA），通过三个阶段（文本-图像、语音、视频）逐步扩展模型能力，确保在不同模态间的性能平衡。Ola-7B版本在OpenCompass多模态排行榜上平均得分72.6，排名第一，是参数少于15B的模型中表现最佳的。此外，Ola支持实时流式解码功能，增强文本和语音交互的流畅性，适合需要高级交互体验的场景。

DeepSeek Chat官网 – 擅长数学、代码和复杂推理的聊天平台

DeepSeek Chat 是由国内大型模型平台 DeepSeek 发布的聊天平台，基于 DeepSeek-R1-Lite 推理模型。该模型在数学、代码和复杂推理任务上表现出色，能生成数万字的推理流程，帮助用户深入理解模型生成内容的整个过程。平台目前免费提供每日 50 次深度思维推理服务，并计划开源。研究表明，DeepSeek-R1-Lite 在多项测试中表现可能优于 OpenAI 的 o1 预览版。

Aide.dev官网 – AI驱动的编程助手

Aide.dev 是一款创新的AI工具，旨在提升开发者的编码体验，通过智能的代码补全和实时聊天支持，使编码过程更加高效和互动，同时确保代码隐私。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

Segment Anything Model 2 (SAM 2)开源项目 – 图像和视频对象分割的开源AI模型

SAM 2 是 Meta AI 团队开发的开源 AI 模型，专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型，能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验，并共享了用于构建 SAM 2 的数据集 SA-V，许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构，支持实时视频处理，并提供了一个模型在环的数据引擎，通过用户交互改进模型和数据。

Mathstral-7B-v0.1模型 – 专注于数学推理的语言模型

Mathstral-7B-v0.1 是由 Mistral AI 开发的一个 7B 参数的语言模型，专为数学推理和科学发现设计。该模型具有 32k 上下文窗口，擅长处理复杂的多步逻辑推理任务，如数学证明和科学计算。它在 MATH 和 MMLU 等基准测试中表现优异，显示出强大的数学和逻辑推理能力。模型基于 Mistral 7B 开发，使用 F32 张量类型，参数数量为 7.25B，支持通过 Hugging Face 下载和使用。

Cube Studio开源 – Roblox的3D生成AI系统

Cube Studio是Roblox平台的核心生成式人工智能系统，专注于3D和4D内容生成，主要用于游戏开发。它支持机器学习、深度学习和大型模型开发，提供从数据管理到模型部署的全流程支持，包括在线开发、分布式训练和推理服务。该系统于2025年3月16日发布，目前处于beta阶段，每日活跃用户超过8500万。它通过文本提示生成3D模型和环境，未来计划支持图像输入，成为多模态模型。

Orion-14B系列模型 – 多语言大型语言模型

Orion-14B系列是OrionStarAI开发的开源多语言大型语言模型，拥有140亿参数，基于2.5T多语言语料库训练，支持中文、英语、日语、韩语等多种语言。该系列模型在自然语言处理任务中表现出色，特别在日语和韩语测试集上表现突出。模型支持长文本处理、高效推理，并可作为其他模型的预训练基础。

DeepSeek AI官网 – 高效低成本的大型语言模型

DeepSeek AI 是一家中国人工智能公司，专注于开发大型语言模型（LLM），成立于2023年7月，由High-Flyer对冲基金拥有和资助。其旗舰模型DeepSeek-R1于2025年1月发布，性能可与OpenAI的GPT-4和o1媲美，但训练成本显著降低。DeepSeek AI的核心创新包括混合专家（MoE）架构、多头潜注意力（MLA）和多令牌预测（MTP），这些技术显著减少了内存使用和训练成本。模型开源，供广泛用户和开发者使用，适用于聊天机器人和AI助手应用。

暂无评论

暂无评论...