Versatile-OCR-Program开源项目 – 教育场景多模态OCR工具
该项目是一款专为教育材料和机器学习训练优化的多模态OCR系统,支持从复杂文档(如试卷、学术论文)中提取文本、数学公式、表格、图表等多语言内容。
采用两阶段处理流程(初始OCR提取+语义解释),结合DocLayout-YOLO、Google Vision API、MathPix等多种技术,输出结构化JSON/Markdown格式数据。
在真实学术数据集(如EJU生物学、东大数学题)上达到90-95%准确率,特别擅长处理科学内容密集、公式繁多的复杂排版文档。