Chaplin 是一个基于视觉语音识别(VSR)技术的实时无声语音识别工具,能够通过摄像头捕捉唇部动作并将其转换为文本。 该项目完全本地运行,无需互联网连接,使用 Auto-AVSR 项目的 LRS3 数据集训练模型,字错误率(WER)为 19.1%(准确率约 80.9%)。 当前主要支持英语识别,适用于隐私敏感或安静环境下的无声沟通场景。