2025年最强大的DINO-DETRAI工具推荐

DTLR开源项目 – 基于DINO-DETR的文本行识别方法

DTLR是一种基于DINO-DETR架构的通用文本行识别方法，支持印刷体（OCR）和手写体（HTR），以及拉丁、中文或密码字符的识别。它通过CNN骨干网络提取多尺度图像特征，并通过变换器编码器层进一步细化这些特征。解码器由一组查询组成，每个查询都与图像特征进行交互，以预测字符的边界框和类别概率。DTLR克服了以往基于检测的方法在HTR中的挑战，包括字符级标注的困难和成本高昂。它通过合成数据预训练、采用transformer检测器以及线级标注微调等技术，提升了手写体识别的效果。