文档预测

先决条件

处理文档数据依赖于光学字符识别 (OCR) 包 tesseract

对于 Ubuntu 用户,只需运行以下命令即可安装 Tesseract 及其开发工具:

sudo apt install tesseract-ocr

对于 macOS 用户,运行

sudo port install tesseract

或运行

brew install tesseract

对于 Windows 用户,可以从 UB-Mannheim 获取 Tesseract 安装程序。要从任何位置访问 tesseract-OCR,您可能需要将 tesseract-OCR 二进制文件所在的目录添加到 Path 环境变量中。

如需其他支持,请参阅 tesseract 的官方说明

快速入门

AutoMM 用于扫描文档分类

如何使用 AutoMM 构建扫描文档分类器。

document_classification.html
使用 AutoMM 对 PDF 文档进行分类

如何使用 AutoMM 构建 PDF 文档分类器。

pdf_classification.html