文档预测¶
先决条件¶
处理文档数据依赖于光学字符识别 (OCR) 包 tesseract
。
对于 Ubuntu 用户,只需运行以下命令即可安装 Tesseract 及其开发工具:
sudo apt install tesseract-ocr
对于 macOS 用户,运行
sudo port install tesseract
或运行
brew install tesseract
对于 Windows 用户,可以从 UB-Mannheim 获取 Tesseract 安装程序。要从任何位置访问 tesseract-OCR,您可能需要将 tesseract-OCR 二进制文件所在的目录添加到 Path 环境变量中。
如需其他支持,请参阅 tesseract 的官方说明
快速入门¶
AutoMM 用于扫描文档分类
如何使用 AutoMM 构建扫描文档分类器。
使用 AutoMM 对 PDF 文档进行分类
如何使用 AutoMM 构建 PDF 文档分类器。