M6Doc是用于现代文档布局分析研究的数据集,包含9,080张现代文档图像,涵盖科学文章、教材、试卷、杂志、报纸、笔记和书籍等七个子集,提供了多样的数据来源和详细的文档布局标注标签。
Annotation Tools是一个面向计算机视觉和自然语言处理任务的开源标注工具列表,旨在提供多种标注类型和功能以满足不同项目的需求。用户可以通过友好的界面轻松选择和使用各种标注工具,同时支持团队协作和项目管理,提升工作效率。
DONUT是一种非OCR方式的文档识别Transformer技术,性能和效果远超传统OCR技术,能够处理复杂的文档结构,包括表格和其他格式。
Augmenty是一个基于spaCy的文本增强库,用于丰富文本数据,提升NLP模型的性能。它支持多种文本增强技术,易于集成和自定义,适合多种NLP任务。
Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集,来源于清晰路径机器人仓库,旨在提供增量感知数据,支持机器人导航和环境理解的研究。
TemporalBench是一个专门用于评估多模态视频模型在细节时间动态和动作理解能力方面的基准测试工具,包含约10K视频问答对,这些问答对源自2K高质量的人工注释视频字幕。
SurgicalSAM是一个高效的手术工具分割项目,支持类提示,旨在提升手术视频分析和医疗图像处理的效率。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型