Python basiertes, optical character recognition Skript zur Auto-Verarbeitung von Dokumenten und Speicherung in SMB Ordner.
Go to file
dev_alex 618f33094a Add mount path to config
input Add sample bild
.gitignore Add ignore output
LICENSE Initial commit
README.md Edit Readme
_requirements.txt Add initial docs
ocr_config.ini Add mount path to config
ocr_scan.py Add non-english scanning

README.md

ocr_document_scanner

Python basiertes, optical character recognition Skript zur Auto-Verarbeitung von Dokumenten und Speicherung in SMB Ordner.

Install Guide:

  1. Install Tesseract OCR je nach OS (https://tesseract-ocr.github.io/tessdoc/Installation.html)

  2. Sprachpakete Installieren oder manuel in C:\Program Files\Tesseract-OCR\tessdata hineinkopieren (herunterladen @ https://github.com/tesseract-ocr/tessdata_fast)

  3. Umgebungsvariable TESSDATA_PREFIX zum Sprachpaket Ordner setzen (z.b. C:\Program Files\Tesseract-OCR\tessdata)

  4. Config anpassen

  5. Zu scannende Bilder in Input Ordner Packen

  6. Skript auführen

  7. Output Ordner Inhalt extrahieren