DTLR开源项目 – 基于DINO-DETR的文本行识别方法
DTLR是一种基于DINO-DETR架构的通用文本行识别方法,支持印刷体(OCR)和手写体(HTR),以及拉丁、中文或密码字符的识别。它通过CNN骨干网络提取多尺度图像特征,并通过变换器编码器层进一步细化这些特征。解码器由一组查询组成,每个查询都与图像特征进行交互,以预测字符的边界框和类别概率。DTLR克服了以往基于检测的方法在HTR中的挑战,包括字符级标注的困难和成本高昂。它通过合成数据预训练、采用transformer检测器以及线级标注微调等技术,提升了手写体识别的效果。