Extractous 是一个用 Rust 语言开发的高性能非结构化数据提取工具,能够快速高效地从 PDF、Word、HTML 等多种文档格式中提取文本内容和元数据。它通过多核利用和内存效率优化,显著提升了处理速度和资源利用率。此外,Extractous 集成了 Apache Tika 和 Tesseract OCR,支持更多文件格式和图像文本提取,所有处理均在本地完成,无需依赖外部服务或 API。