VLM Run Hub 是一个为视觉语言模型(VLMs)设计的开源工具,专注于从图像、视频、文档等非结构化视觉数据中提取行业级结构化数据。它提供超过20种预定义的Pydantic数据模型,覆盖金融、医疗、零售等27个领域,支持自动数据验证和主流VLM平台无缝集成,显著减少人工干预并提升视觉ETL(提取-转换-加载)流程效率。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型