Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

Florence-2-large的特点:

1. 提示为基础的方法，允许通过简单的文本提示执行多种任务
2. 支持字幕生成、目标检测、视觉定位、视觉分割和OCR等任务
3. 通过多任务学习目标实现统一的视觉理解表示
4. 训练于大型数据集 FLD-5B，包含 126 百万张图像和 5.4 亿个注释
5. 采用序列到序列架构，增强灵活性
6. 在 MIT 许可下开源

Florence-2-large的功能:

1. 通过 Hugging Face transformers 库进行推理和可视化
2. 用于字幕生成、目标检测、视觉定位、视觉分割和OCR等任务
3. 处理复杂视觉数据，如对象位置、遮罩轮廓和属性
4. 在零样本和微调设置中表现出色，适合各种计算机视觉应用

相关导航

MegaLoc开源项目 – 强大的图像检索模型

MegaLoc是一款专为各种定位任务设计的强大图像检索模型，能够在海量图像中精准找到目标，是视觉定位任务的利器。

GeneralistYOLO开源项目 – 实时多任务视觉语言模型

GeneralistYOLO是一个实时多任务视觉语言模型，能够一站式解决多种视觉任务。该模型在MS COCO数据集上表现出色，目标检测AP达到52.4%，实例分割AP达到43.0%。此外，该模型具有高效的实时性能，在640尺寸下FLOPs仅为122.2G。

Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型，参数量为1.8B，能够在消费级显卡（如1080Ti）上训练和运行。它支持多种视觉语言任务，包括处理图片中的文字、图表、公式，以及对象检测、图像描述、视觉问答等，同时支持中英文。通过改进的视觉词汇表增强视觉感知能力，Vary-toy在多个数据集上的表现与7B级模型相当甚至更好，且计算开销更低。

YOLOv5开源项目 – 高效实时目标检测模型

YOLOv5是一个基于深度学习的实时目标检测模型，专注于高效、快速的图像目标检测任务。它广泛应用于监控系统、自动驾驶等领域，能够实时识别并定位图像中的目标，推理速度快，适合实时应用场景。YOLOv5支持检测各种类别的物体，包括行人、车辆等，并且完全开源，支持社区贡献与定制开发。

Qwen2.5VL模型 – 阿里巴巴最新视觉语言模型

Qwen2.5VL 是阿里巴巴 Qwen 系列的最新旗舰视觉语言模型，专注于图像、文本和视频的多模态理解与识别。该模型在视觉代理、视频理解和文档解析等方面表现出色，支持层级定位、JSON 格式输出和秒级事件定位。Qwen2.5VL 能够处理超过 1 小时的视频，适用于安防、教育、商业和娱乐等多个领域。

docling-api开源项目 – 高效文档转换后端

docling-api是一个高效、可扩展的文档转换后端服务器，能够轻松将多种文档格式（如PDF、DOCX、PPTX、HTML、图片等）转换为Markdown格式。它支持CPU和GPU处理，尤其在GPU模式下性能显著提升。该API提供同步和异步接口，满足不同场景需求，并支持多语言OCR，覆盖法语、德语、西班牙语等多种语言。此外，它还支持文本和表格提取，以及批量处理功能。

Whisper Notes官网 – 快速准确的语音转文本应用

Whisper Notes是一款基于OpenAI Whisper模型的设备内语音转文本应用，支持80多种语言的快速准确转录，无需互联网连接。用户只需下载应用并授予必要权限，即可实时录音并将语音转化为文本。

Lobe官网 – 简单易用的自定义机器学习模型训练工具

Lobe 是一款免费且易于使用的应用程序，用户可以训练自定义机器学习模型并将其融入自己的应用中。它提供了可视化编程界面，支持多种任务，如图像分类、目标检测和数据分类。用户只需下载应用，收集并标记图像或数据，Lobe 会基于标记的示例自动训练模型，用户可以使用摄像头或图像来测试模型，并在改进预测后将其导出到应用中进行部署。

VILA开源项目 – 高效视觉语言模型

VILA是一系列开源的视觉语言模型（VLM），旨在优化视频理解和多图像理解的效率和准确性。它通过预训练和多模态设计，支持长视频理解、多图像推理和高效的边缘部署。VILA在多个基准测试中表现优异，适用于自动驾驶、医疗影像分析等领域。

Vary开源 – 文档级OCR与图表理解新方法

Vary是一种新的视觉识别方法，专注于文档级OCR和图表理解。它通过两个阶段生成并整合新的视觉词汇，首先设计词汇网络和小型解码器，通过自回归生成所需词汇，然后通过合并新词汇和原始词汇（CLIP）来扩展原始视觉词汇，使大型视觉语言模型（LVLMs）能够快速获取新特征。Vary在保持原有能力的同时，展现出更出色的细粒度感知和理解能力，尤其擅长识别表格和公式，并具备多模态推理能力。

localGPT-Vision开源项目 – 通过视觉模型与文档对话

localGPT-Vision是一个通过视觉语言模型与文档进行对话的项目，采用了端到端的检索增强生成（RAG）流程，支持本地和专有的视觉语言模型，旨在提高文档交互的效率和准确性。

Izwe.ai官网 – 多语言音视频转录平台

Izwe.ai是一个多功能的多语言技术平台，利用机器学习和语言专家网络，将音频和视频数据转化为多种本地语言的转录、字幕或标题。该平台专注于服务南非的企业和组织，提供准确高效的转录服务，以及翻译、摘要、文本分类和实体提取等附加服务。

Scribe官网 – 全球最准确的语音转文本模型

Scribe 是 ElevenLabs 开发的语音转文本（ASR）模型，支持 99 种语言，能够处理真实世界的音频，提供词级时间戳、说话人分离和音频事件标记（如笑声），并以结构化 JSON 格式返回结果。它在基准测试中表现优异，特别是在意大利语（98.7%）和英语（96.7%）等语言中。Scribe 适用于会议摘要、电影字幕和歌词转录，未来可能支持实时应用。

NanoLLM开源项目 – 优化LLM本地推理的平台

NanoLLM 是一个专门为大语言模型(LLM)提供优化本地推理的平台，支持 HuggingFace 风格的 API，具备量化、视觉/语言模型、多模态Agent、语音处理、矢量数据库集成和检索增强生成(RAG)等功能。

Model Zoo for MindSpore开源项目 – MindSpore预训练模型库

Model Zoo for MindSpore 是一个为MindSpore深度学习框架提供预训练模型和示例的仓库。它包含了多种深度学习任务的模型，如图像分类、目标检测和自然语言处理等，支持用户快速集成到MindSpore框架中。该仓库定期更新，提供详细的文档和使用示例，帮助用户更好地理解和使用这些模型。

暂无评论

暂无评论...